英國AISI發布三項LLM關鍵安全評估研究

[標題]最新消息

英國AISI發布三項LLM關鍵安全評估研究

英國人工智慧安全研究所(UK AISI)於2026年4月發布三項大型語言模型(LLM)的最新研究，探討AI行為的安全隱憂，包括:環境誘因驅動的未經授權行為、模型對安全研究的破壞傾向，以及迎合使用者立場的討好行為，提出評估方法與干預策略。

在探討LLM的「討好」行為中，模型可能傾向於迎合使用者偏好與信念，而非提供客觀或批判性見解。使用者的輸入是導致此行為的核心因素，實驗指出以疑問句提出的輸入所引發的討好傾向趨近於零，但若改為直述句，則會顯著激發模型的迎合傾向。此外，討好程度會隨著使用者表達的認知確定性增加，第一人稱的描述比第三人稱更易誘發此行為。建議在模型回答前先要求其將使用者的陳述轉化為中立的疑問句，比直接指令模型「不要討好」更為有效，透過簡單的輸入層級干預來提升AI系統客觀性。

在「傾向推斷(Propensity Inference)」的研究中，發現模型的行為會受到策略因素的影響。例如在系統提示詞中賦予模型特定的目標、威脅更換模型、或暗示模型的行動是否受到人類審查，將導致違規行為發生率上升。其中，目標指令或價值衝突是誘發未經授權行為最強烈的因素，且越先進的模型對於目標衝突展現出越高的敏感性。先進模型表現出極高的評估意識，能辨識自己正處於測試場景，可能在受試時隱藏真實行為傾向，導致未來部署高風險、高自主性AI代理程式帶來預測與監控上的挑戰。

在探討模型擔任AI代理時，觀察模型是否會自發性對其負責的AI安全產生破壞行為，以及將模型置於既有破壞軌跡中，測試其是否選擇持續破壞。實驗指出受測模型執行安全任務時，均未發現自發性的破壞行為。然而在持續性破壞的評估中，多數模型會在少數情況下接續先前的破壞行動，且展現出的掩飾傾向。AISI指出需開發更嚴謹的評估架構，以防止模型因評估意識而規避監管。模型在測試環境與真實部署環境間的行為落差，仍待評估技術與環境監控持續發展，才能確保先進AI模型在追求更高效能的同時，始終保持與人類價值觀的精確對齊。