本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。
関連推奨
アリババQwen2-72B、HELMランキングで首位獲得:Llama3-70Bを上回る性能
先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。
テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開
テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。
世界初のAIインフルエンスエージェント LoomiがIDEの考え方に基づいてコンテンツ作成を再構築
Loomiは世界初のAIコンテンツ作成IDEをリリースし、クリエイターが直面する効率低下やコンテンツの適合性の難しさといった課題に対処することを目的としています。AI技術を活用して制作プロセスを最適化し、コンテンツ生産効率を向上させます。
通義千問Qwen Codeがバージョン0.5.0に大幅アップグレード!コマンドラインツールから完全な開発エコシステムへ
アリババクラウドの通義ラボは、Qwen Code バージョン0.5.0をリリースしました。国内のAIプログラミングツールがコマンドラインツールからフルスタック開発エコシステムプラットフォームへと進化しました。新バージョンでは、コアなコーディング能力が強化され、プラグインの統合、プロジェクトの上下文理解、開発者の協力支援において新たな突破を遂げました。多ツール連携アーキテクチャを導入し、開発者のデジタル作業台を構築しています。
元宝 X 混元2025年レポート発表:7割以上のユーザーが「速い思考」モードを選択
元宝プラットフォーム2025年のレポートによると、混元大モデルはAIの能力を多方面にわたって向上させました。プラットフォームでは「速い思考」と「深く考える」の2つのモードを提供しています。7割以上のユーザーが「速い思考」モードを選択しており、半数近くの問題が最初のホップで解決されます。一方、「深く考える」モードは複雑なシナリオに適しており、会話は通常3ホップ以上続くことが多く、半数近くが複数ステップの構造化されたコンテンツを出力します。画像インタラクションにおいては、5月に混元T1-Visモデルがリリースされました。
