本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。
関連推奨
中国移動がMoMAプラットフォームを発表:AIによる水・電気・ガス時代を開く。トークンコストの30%削減
2026年、中国移動はモバイルクラウドカンファレンスで「MoMA」モデルサービスプラットフォームを発表。大規模モデルを実験室から各産業へ普及させ、AIを水道・電気のように手軽に利用可能にする。統一APIゲートウェイにより、自社「九天」基盤モデルを含む300以上の主流モデルを一度の接続で呼び出し、「すぐに使える」環境を実現する。これがプラットフォームの核心的強みである。....
話題沸騰のDeepSeek-V4の裏で:北京大学が公開したOne-EvalはAI評価の悪夢をどう終わらせたのか?
DeepSeek-V4が公開されてから10時間も経たないうちに、北京大学DCAIチームは最新のオープンソースOne-Eval評価フレームワークを使って、迅速に完全な自動化された評価レポートを作成しました。従来の大規模モデルの評価プロセスは煩雑で、テストパイプラインの構築に多くの労力を要していましたが、One-Evalは効率を大幅に向上させ、業界の新たな段階を示しています。
バイチューティアが先端技術人材の採用を開始 グローバルな博士課程生向けに複数のAI分野を開放
バイトダンスがグローバルな博士課程学生向けに新卒採用を開始。学術論文や特許、コンテスト受賞歴を持つ技術人材を優先的に募集。....
アリババ・テンユンチエンアプリが四大衛星テレビ春晚を独占広告、AIスマートエージェントが芸術の舞台に初登場
アリババ・テンユンチエンアプリは「春節ごちそう計画」に30億元を投じた後、東方衛星テレビ、浙江衛星テレビ、江蘇衛星テレビおよび河南省衛星テレビの四大マウス年の春晚の独占広告権を獲得した。以前とは異なり、テンユンチエンは番組コンテンツ制作に深く関わる予定で、「AI俳優」としてパフォーマンスに溶け込み、AI映像生成、画像認識およびリアルタイム質問応答などの先端技術を活用し、視聴者にテクノロジー感覚満載の春晚体験を提供する。
アリババQwen2-72B、HELMランキングで首位獲得:Llama3-70Bを上回る性能
先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。
