大規模言語モデル評価の混沌：パラメータ規模は万能ではない

ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。

2%のパラメータでGPT-4oを倒せる？アリババ通義千問Qwen 3.5の小さなモデルが爆発的に人気だ！

アリババ通義千問Qwen 3.5シリーズの小さなモデルは、「パラメータ数が知能を決める」という常識を打ち破った。その中でも400億パラメータのQwen 3.5-4Bは、数百億パラメータを持つGPT-4oと比較して、第三者テストで劣るどころかわずかに上回る結果を収めている。これは国内の大規模モデルがローカルデプロイと効率最適化において重要な突破を遂げたことを示しており、「小さな力で大きな勝利を得る」新しい時代を開いた。

智源研究院、JudgeLM 裁判モデルをオープンソース化：様々な大規模言語モデルを評価しスコアを出力

智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90％以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90％を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。

アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表

アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。

コンピューターゲーム『Factorio』がAI能力評価の新ツールに

『Factorio』は、建造と資源管理に焦点を当てた複雑なコンピューターゲームであり、最近、研究者による人工知能能力評価の新ツールとなっています。このゲームは、複数の資源と生産ラインを管理しながら、複雑なシステムの計画と構築における言語モデルの能力をテストできます。そのため、研究チームは「Factorio学習環境（FLE）」というシステムを開発し、2種類の異なるテストモードを提供しました。「実験モード」には24個の構造化された課題が含まれており、具体的な目標と限られた資源が設定されています。タスクは単純な2台の…

驚異的突破！AIが執筆した論文が人間の専門家審査をすり抜ける