日本發布日語大型語言模型排行榜與評測工具

[標題]最新消息

日本發布日語大型語言模型排行榜與評測工具

2024年11月日本LLM-jp發布日語大型語言模型(LLM)排行榜「Open Japanese LLM Leaderboard」，此排行榜採用專門的評測工具「llm-jp-eval」評測日語大型語言模型的表現。評測任務涵蓋自然語言推理、機器翻譯、摘要、問答、程式碼生成、數學推理等16項任務，由LLM-jp的評測團隊編譯23個資料集，來自語言學家、專家和人工標註協助構建，或自動翻譯為日語並根據日語的具體情況進行調整。

此排行榜反映出日語大型語言模型在一般語言處理任務上，基於開源架構的日語大型語言模型持續進步，縮小與閉源模型的性能差距。在特定領域的資料集對於日語大型語言模型仍是挑戰，例如金融、語言註釋、程式碼產生和摘要等任務。評測工具將持續開發，新增資料集與評測項目。

LLM-jp是一個研究和開發日語大型語言模型的跨組織專案，目標是自主開發日本開源大型語言模型，由日本國立情報學研究所(NII)於2023年5月推出，並與Hugging Face合作。LLM-jp成立六個工作小組：語料庫建構工作小組、模型建構工作小組、微調和評測工作小組、計算基礎設施工作小組、學術領域工作小組和安全工作小組。此專案匯集來自大學和企業超過1,700位參與者，2024年4月擴大成立「大型語言模型研究開發中心」，持續促進日本大型語言模型進步的研究與開發。

相關連結:

🇯🇵 Open Japanese LLM Leaderboard (另開視窗)

相關圖片:

開放日語LLM排行榜的評估結果截圖，此排行榜利用專門的評測工具，評估日語大型語言模型在多達16項任務上的表現