《AISI的安全案例》(Safety Cases at AISI)

[標題]最新消息

《AISI的安全案例》(Safety Cases at AISI)

英國人工智慧安全研究所(AI Safety Institute，簡稱AISI)為英國科學創新技術部下設研究機構，於2023年11月正式成立。AISI為全球首個由國家支持先進人工智慧安全機構，主要使命為最大限度減少人工智慧快速發展對人類帶來之意外影響，並致力於開發理解先進人工智慧風險並實現其治理所需之社會技術基礎設施。

AISI核心工作包含：

- 檢查、評估及測試新型人工智慧系統，了解每個新AI模型之能力。

- 執行基礎研究，探索如何於人工智慧快速發展中保障人類安全。 - 評估人工智慧對國家安全與公共福祉之風險。

- 與人工智慧開發者合作，確保開發之責任性。

- 為政策制定者提供當前新興人工智慧風險資訊。 AISI正在規劃一系列合作與研究專案，重點關注AI模型失控與自主性風險。該機構強調「安全案例」重要性，即以證據為基礎之有條理論據，證明系統在特定環境中對特定應用是安全的。

AISI提供3種不同安全案例草案：

1. 透過紅隊攻擊進行壓力測試：紅隊測試為一種模擬真實攻擊之安全評估方法。紅隊攻擊測試可幫助研究人員識別AI系統意外風險，並為後續測試提供方向與建議，但這種方法存在一些局限性，如善意行為者可能無法準確模擬惡意行為者的思維等。在AI安全領域中，這種方法涉及：

- 組織一個專家團隊扮演惡意行為者角色。

- 嘗試破解或繞過AI系統之安全控制措施。

- 研究AI系統漏洞與弱點。

- 測試AI系統面對各種攻擊情境時之反應與措施。

2. 透過對模型的理解進行偵測：這種方法涉及深入分析AI模型內部工作原理與行為模式。透過這種方法，研究人員可以更理解AI模型能力與潛在風險，從而制定針對AI模型之安全措施與防護。此方法主要包含： -

研究模型架構與訓練過程。

- 分析模型決策邏輯與輸出結果。

- 識別潛在偏見、錯誤及不安全行為。

- 評估模型於不同情境下之表現與局限性。

3. 對模型內部進行干預：這種方法涉及直接修改或調整AI模型內部結構與參數，以增強其安全性。此方法旨在從根本上提高AI系統安全性，但也可能面臨技術挑戰與對模型性能之潛在影響。可能的干預措施包含：

- 在模型訓練過程中加入安全約束。

- 實施運行時監控與控制機制。

- 設計與實施模型的「緊急制動」系統。

- 調整模型的輸出過濾器以防止有害內容。

AISI強調，這些安全案例草案目前未臻完善，需要進一步研究與合作來完善相關安全案例。該機構正與多方研究機構合作，設計更全面的安全案例。AISI建議不應僅依賴單一方法，而應將這些方法視為眾多重要評估工具中的一部分。