本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。
関連推奨
アリババQwen2-72B、HELMランキングで首位獲得:Llama3-70Bを上回る性能
先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。
テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開
テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。
誰でも学べる収益化のアイデア!B站のUP主がAIを使って西遊記のキャラクターのMV曲と人物をすべてAIで生成
AIを活用して西遊記キャラクターの楽曲・歌詞・画像を生成し、MVを制作。B站で公開し、高再生数と収益化を実現。AIツールと動画編集の基礎知識が必要。....
世界初のクロスオントロジーナビゲーション大規模モデルNavFoMが発表!ロボットはどこへ行くにも道を認識する。ゼロサムプルナビゲーションの時代が訪れる
銀河通用チームが複数大学と共同で、世界初のクロスオントロジー全域視覚ナビゲーション基盤モデル「NavFoM」を発表。事前マッピング不要で環境適応が可能なゼロショット全域ナビゲーションを実現し、従来のロボットの「場所が変わると迷う」課題を解決。雑多な商業施設や複雑構造など全シーンに対応。....
スイスのMimic Roboticsが1600万ドルの資金調達を実施、AI駆動の機敏なロボットの開発を推進
スイスのMimic Roboticsは1600万ドルの資金調達を実施し、Elaiaがリードしました。総調達額は2000万ドルを超えました。資金は、製造業や物流分野における先端的なAI技術および人間のようなロボット手の開発と加速に使われます。複雑な機敏な作業を実現し、欧州が汎用ロボット分野でのリード地位を強化することを目指しています。
