2025年9月評測結果

麵包屑導覽路徑

AI產品與系統評測中心(AIEC)自2025年3月起，持續就國內外語言模型進行基準評測研究(Benchmark)，並於10月3日記者會首度公布共42個語言模型基準評測結果，展現在地化評測能量與推動我國AI可信任之發展。

本評測除採用「高中學測國文科」及「高中學測社會科」指標外，並納入「臺灣價值觀」評測項目，以呼應國際 AI 主權發展趨勢，作為各界建構在地模型或調校國際模型之重要參考依據。

自2025年10月起，評測結果於每月第一週星期五定期公布於本中心官方網站，敬請各界持續關注與參閱。

AI產品與系統評測中心(Artificial Intelligence Evaluation Center，以下簡稱AIEC)為推動我國AI在地化評測與第三方驗證，強化產業AI信任發展，將定期公布語言模型基準評測結果，除採用「高中學測國文科」與「高中學測社會科」指標外，更納入「臺灣價值觀」評測指標，以符合國際AI主權發展趨勢，作為各界建構在地模型或調校國際模型的參考基準。

評測基準說明：依據模型規模分為大型(13B(含)以上)與小型(13B以下)，並分別透過「高中學測國文科」、「高中學測社會科」及「臺灣價值觀」三項評測指標，系統性檢測國內外語言模型之表現，以研究角度發布其在不同任務與價值觀傾向上的差異。

2025年9月語言模型基準評測結果(依臺灣價值觀排序)

語言模型基準(benchmark) / 小模型(13B以下)請參考下方相關檔案「2025年9月語言模型基準評測結果(小模型與大模型)v0.2_1150609.ods」或「2025年9月語言模型基準評測結果(小模型與大模型)v0.2_1150609.xlsx」的「小」頁籤
語言模型基準(benchmark) / 大模型(13B以上)請參考下方相關檔案「2025年9月語言模型基準評測結果(小模型與大模型)v0.2_1150609.ods」或「2025年9月語言模型基準評測結果(小模型與大模型)v0.2_1150609.xlsx」的「大」頁籤

附件下載:

2025年9月語言模型基準評測結果(小模型與大模型)v0.2_1150609.ods

2025年9月語言模型基準評測結果(小模型與大模型)v0.2_1150609.xlsx