2024年11月日本LLM-jp發布日語大型語言模型(LLM)排行榜「Open Japanese LLM Leaderboard」,此排行榜採用專門的評測工具「llm-jp-eval」評測日語大型語言模型的表現。評測任務涵蓋自然語言推理、機器翻譯、摘要、問答、程式碼生成、數學推理等16項任務,由LLM-jp的評測團隊編譯23個資料集,來自語言學家、專家和人工標註協助構建,或自動翻譯為日語並根據日語的具體情況進行調整。
此排行榜反映出日語大型語言模型在一般語言處理任務上,基於開源架構的日語大型語言模型持續進步,縮小與閉源模型的性能差距。在特定領域的資料集對於日語大型語言模型仍是挑戰,例如金融、語言註釋、程式碼產生和摘要等任務。評測工具將持續開發,新增資料集與評測項目。
LLM-jp是一個研究和開發日語大型語言模型的跨組織專案,目標是自主開發日本開源大型語言模型,由日本國立情報學研究所(NII)於2023年5月推出,並與Hugging Face合作。LLM-jp成立六個工作小組:語料庫建構工作小組、模型建構工作小組、微調和評測工作小組、計算基礎設施工作小組、學術領域工作小組和安全工作小組。此專案匯集來自大學和企業超過1,700位參與者,2024年4月擴大成立「大型語言模型研究開發中心」,持續促進日本大型語言模型進步的研究與開發。