跳到主要內容

[標題]最新消息

日本發布日語大型語言模型排行榜與評測工具

2024年11月日本LLM-jp發布日語大型語言模型(LLM)排行榜「Open Japanese LLM Leaderboard」,此排行榜採用專門的評測工具「llm-jp-eval」評測日語大型語言模型的表現。評測任務涵蓋自然語言推理、機器翻譯、摘要、問答、程式碼生成、數學推理等16項任務,由LLM-jp的評測團隊編譯23個資料集,來自語言學家、專家和人工標註協助構建,或自動翻譯為日語並根據日語的具體情況進行調整。

此排行榜反映出日語大型語言模型在一般語言處理任務上,基於開源架構的日語大型語言模型持續進步,縮小與閉源模型的性能差距。在特定領域的資料集對於日語大型語言模型仍是挑戰,例如金融、語言註釋、程式碼產生和摘要等任務。評測工具將持續開發,新增資料集與評測項目。

LLM-jp是一個研究和開發日語大型語言模型的跨組織專案,目標是自主開發日本開源大型語言模型,由日本國立情報學研究所(NII)於2023年5月推出,並與Hugging Face合作。LLM-jp成立六個工作小組:語料庫建構工作小組、模型建構工作小組、微調和評測工作小組、計算基礎設施工作小組、學術領域工作小組和安全工作小組。此專案匯集來自大學和企業超過1,700位參與者,2024年4月擴大成立「大型語言模型研究開發中心」,持續促進日本大型語言模型進步的研究與開發。

相關連結:
🇯🇵 Open Japanese LLM Leaderboard (另開視窗)
相關圖片:
請參考下方圖片說明
 開放日語LLM排行榜的評估結果截圖,此排行榜利用專門的評測工具,評估日語大型語言模型在多達16項任務上的表現