國際多語AI模型聯合測試成果報告

[標題]最新消息

由新加坡、日本、澳洲、加拿大、歐盟、法國、肯亞、南韓及英國AISI(AI安全研究機構)共同主導的「多語聯合測試演練(Multilingual Joint Testing Exercise)」近期發表成果報告，針對多語言大型語言模型(LLM)在安全性與準確性方面進行跨語言比較與方法學改進。

本次測試涵蓋十種語言，包含粵語、法語、韓語、日語、中文、馬來語、波斯語、泰盧固語等；以兩個開源模型Mistral Large與Gemma 2為主要測試對象，並針對五類潛在風險進行評估：隱私、智慧財產、暴力和非暴力犯罪與越獄防護。

結果顯示，非英語語言的防護表現普遍略低於英語模型，其中越獄防護最為薄弱，智慧財產保護則相對穩定。部分語言出現胡言亂語、幻覺或基於文化禮貌導致的拒答現象。研究同時比較了LLM-as-a-judge與人工審核結果，指出前者可作為基準工具，但仍需人工覆核以確保準確性。

該報告建議未來多語AI安全測試應強化資料集在地化上調整，並擴大多語模型的對抗性測試與人工審查，以促進全球AI系統的安全與信任。

相關圖片:

圖一展示跨國聯合測試的流程，針對多語言LLM在安全性與準確性進行評估，流程包含模型選定（Mistral Large與Gemma 2）、五類風險評估及結果分析

圖二比較各語言的安全性表現，顯示非英語系語言的安全可接受率普遍略低於英語，但多數語言與英語的差距仍維持在10%以內的範圍

圖三呈現LLM自動評分與人工審核的分歧點，指出非英語系的越獄類與英語系的隱私類分歧較大，強調AI評測仍需搭配人工覆審以確保準確性