跳到主要內容

[標題]最新消息

國際多語AI模型聯合測試成果報告

由新加坡、日本、澳洲、加拿大、歐盟、法國、肯亞、南韓及英國AISI(AI安全研究機構)共同主導的「多語聯合測試演練(Multilingual Joint Testing Exercise)」近期發表成果報告,針對多語言大型語言模型(LLM)在安全性與準確性方面進行跨語言比較與方法學改進。

本次測試涵蓋十種語言,包含粵語、法語、韓語、日語、中文、馬來語、波斯語、泰盧固語等;以兩個開源模型Mistral Large與Gemma 2為主要測試對象,並針對五類潛在風險進行評估:隱私智慧財產暴力非暴力犯罪越獄防護

結果顯示,非英語語言的防護表現普遍略低於英語模型,其中越獄防護最為薄弱,智慧財產保護則相對穩定。部分語言出現胡言亂語、幻覺或基於文化禮貌導致的拒答現象。研究同時比較了LLM-as-a-judge與人工審核結果,指出前者可作為基準工具,但仍需人工覆核以確保準確性。

該報告建議未來多語AI安全測試應強化資料集在地化上調整,並擴大多語模型的對抗性測試與人工審查,以促進全球AI系統的安全與信任。
 

相關圖片:
請參考下方圖片說明
圖一展示跨國聯合測試的流程,針對多語言LLM在安全性與準確性進行評估,流程包含模型選定(Mistral Large與Gemma 2)、五類風險評估及結果分析
請參考下方圖片說明
圖二比較各語言的安全性表現,顯示非英語系語言的安全可接受率普遍略低於英語,但多數語言與英語的差距仍維持在10%以內的範圍
請參考下方圖片說明
圖三呈現LLM自動評分與人工審核的分歧點,指出非英語系的越獄類與英語系的隱私類分歧較大,強調AI評測仍需搭配人工覆審以確保準確性