ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。
関連推奨
智源研究院、JudgeLM 裁判モデルをオープンソース化:様々な大規模言語モデルを評価しスコアを出力
智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90%以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90%を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。
アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表
アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。
Anthropic、企業ユーザーに重点、新たな収益源模索
人工知能スタートアップAnthropicは最近、新たな収益源として企業ユーザーに重点を置くことを発表しました。同社のプロダクト責任者マイク・クリーガー氏は、Anthropicが企業市場向けの新機能を導入する準備を進めていると明かし、これらの機能は、大企業のAIアプリケーションにおける特定ニーズを満たすものになると予想されます。人工知能技術の急速な発展に伴い、効率向上とイノベーション促進におけるAIの重要性を認識する企業が増えています。
テンセント混元、5つのオープンソース3Dモデルを発表:30秒で生成、マルチプラットフォームに対応
テンセント混元は先日、5つの新しい3D生成モデルを発表し、すべてをオープンソース化しました。これらのモデルはHunyuan3D-2.0を基に構築されており、生成速度が速く、ディテールが豊かで、マテリアルの表現がよりリアルな特徴があります。同時に、テンセントが独自開発した3D AI創作エンジンもアップグレードされ、マルチビュー入力、モデルのインテリジェントなポリゴン削減、あらゆるフォーマットへの完全互換性などの機能が追加され、現在Cエンドユーザー向けに全面的に開放されています。これらの新しいモデルの中で、Turboシリーズモデルは高精度と高品質を維持しながら、ジオメトリ生成モ…
DeepSeek関連株が本日急騰、百度、金山雲、阿里巴巴が上昇を牽引
香港市場のDeepSeek関連株が本日好調で、多くの銘柄が大幅上昇を見せています。発表時点では、百度集団-SWが9.18%上昇、金山雲が5.03%上昇、阿里巴巴-Wが4.58%上昇しています。この上昇の背景には、百度の文心大模型技術の進化による触媒効果に加え、騰訊による大規模モデルへの積極的な取り組みによる計算能力需要の急増、政策と市場センチメントの共鳴による相乗効果があり、テクノロジーセクターの熱気は高まり続けています。百度のの大規模モデル技術のブレークスルー3月16日、百度は正式に文心大模型4.5と文心大模型を発表しました。
