[標題]最新消息

國際多語AI模型聯合測試成果報告

由新加坡、日本、澳洲、加拿大、歐盟、法國、肯亞、南韓及英國AISI(AI安全研究機構)共同主導的「多語聯合測試演練(Multilingual Joint Testing Exercise)」近期發表成果報告,針對多語言大型語言模型(LLM)在安全性與準確性方面進行跨語言比較與方法學改進。

本次測試涵蓋十種語言,包含粵語、法語、韓語、日語、中文、馬來語、波斯語、泰盧固語等;以兩個開源模型Mistral Large與Gemma 2為主要測試對象,並針對五類潛在風險進行評估:隱私智慧財產暴力非暴力犯罪越獄防護

結果顯示,非英語語言的防護表現普遍略低於英語模型,其中越獄防護最為薄弱,智慧財產保護則相對穩定。部分語言出現胡言亂語、幻覺或基於文化禮貌導致的拒答現象。研究同時比較了LLM-as-a-judge與人工審核結果,指出前者可作為基準工具,但仍需人工覆核以確保準確性。

該報告建議未來多語AI安全測試應強化資料集在地化上調整,並擴大多語模型的對抗性測試與人工審查,以促進全球AI系統的安全與信任。
 

相關圖片:
圖一:測試流程
圖一:測試流程
圖二:各語言的安全可接受率顯示非英語普遍略低於英語,但多數仍與英語相差約一成以內
圖二:各語言的安全可接受率顯示非英語普遍略低於英語,但多數仍與英語相差約一成以內
圖三:各語言的人機評分分歧主要集中在越獄類(非英語)與隱私類(英語),突顯LLM_as_a_judge需搭配人工覆審
圖三:各語言的人機評分分歧主要集中在越獄類(非英語)與隱私類(英語),突顯LLM_as_a_judge需搭配人工覆審