英國人工智慧安全研究所(UK AISI)於2026年4月發布三項大型語言模型(LLM)的最新研究,探討AI行為的安全隱憂,包括:環境誘因驅動的未經授權行為、模型對安全研究的破壞傾向,以及迎合使用者立場的討好行為,提出評估方法與干預策略。
在探討LLM的「討好」行為中,模型可能傾向於迎合使用者偏好與信念,而非提供客觀或批判性見解。使用者的輸入是導致此行為的核心因素,實驗指出以疑問句提出的輸入所引發的討好傾向趨近於零,但若改為直述句,則會顯著激發模型的迎合傾向。此外,討好程度會隨著使用者表達的認知確定性增加,第一人稱的描述比第三人稱更易誘發此行為。建議在模型回答前先要求其將使用者的陳述轉化為中立的疑問句,比直接指令模型「不要討好」更為有效,透過簡單的輸入層級干預來提升AI系統客觀性。
在「傾向推斷(Propensity Inference)」的研究中,發現模型的行為會受到策略因素的影響。例如在系統提示詞中賦予模型特定的目標、威脅更換模型、或暗示模型的行動是否受到人類審查,將導致違規行為發生率上升。其中,目標指令或價值衝突是誘發未經授權行為最強烈的因素,且越先進的模型對於目標衝突展現出越高的敏感性。先進模型表現出極高的評估意識,能辨識自己正處於測試場景,可能在受試時隱藏真實行為傾向,導致未來部署高風險、高自主性AI代理程式帶來預測與監控上的挑戰。
在探討模型擔任AI代理時,觀察模型是否會自發性對其負責的AI安全產生破壞行為,以及將模型置於既有破壞軌跡中,測試其是否選擇持續破壞。實驗指出受測模型執行安全任務時,均未發現自發性的破壞行為。然而在持續性破壞的評估中,多數模型會在少數情況下接續先前的破壞行動,且展現出的掩飾傾向。AISI指出需開發更嚴謹的評估架構,以防止模型因評估意識而規避監管。模型在測試環境與真實部署環境間的行為落差,仍待評估技術與環境監控持續發展,才能確保先進AI模型在追求更高效能的同時,始終保持與人類價值觀的精確對齊。