意味表現の分野では、「英語中心主義」の壁を打ち破ることが、大規模モデルの進化における新たな戦いとなっています。

3月26日、アリババグループ CodeFuse チーム上海交通大学 は正式に F2LLM-v2シリーズ Embedding モデル を発表しました。このシリーズモデルは、権威ある評価で圧倒的なパフォーマンスを示し、世界中の開発者に高性能かつ極めて効率的な意味表現ソリューションを提供しています。

image.png

実力抜群:MTEB 評価で11種類の最優秀を獲得

MTEBというEmbeddingモデルにおいて最も権威のあるランキングで、F2LLM-v2は全面的な優位性を示しました:

11種類の優勝: ドイツ語、フランス語、日本語、コード検索など11の言語および分野のランキングで第1位となりました。

レベルを超えた挑戦: 家族の中で軽量版のモデルでも、同サイズの業界で有名な大規模モデルを何度も上回りました。

深いカバー: 評価タスクは医療クエスチョン&アンサー、コード検索などの430の細分化されたシナリオを含み、完全なカバーを実現しました。

image.png

多機能な理解:282種類の自然言語と40以上のプログラミング言語を精通

F2LLM-v2の強さは、非常に包括的なトレーニングベースに起因しています:

多言語の強化: 中低資源言語(北欧語系、東南アジア語系など)のサポートを特に強化しており、本当にグローバルなカバーを実現しています。

プログラミングの専門家: Python、Java、Goなど40種類以上のプログラミング言語を深く理解し、RAG(検索拡張生成)やコードアシスタント開発者にとって理想的な選択肢です。

高品質なサンプル: 6,000万件の厳しくクリーンされた公開リソースサンプルを基盤としており、モデル知識の純粋性と広範さを確保しています。

image.png

極限的な効率:80Mから14Bまでの全サイズのファミリー

モバイル端末からクラウドまで、すべてのシナリオに対応するために、CodeFuse チームは完全なモデルマトリクスを開発しました:

端末対応: 80M-330Mの小規模モデルは「モデルの裁断」と「知識蒸留」技術を使用し、モバイルデバイス上でスムーズに動作します。

「サッカー」ブラックテクノロジー: 動的次元調整をサポートしており、ユーザーは8次元からフル次元まで自由に切り替えることができ、推論速度とストレージコストの間に完璧なバランスを見つけることができます。

完全なオープンソース:透明度がコミュニティの基準を定義する

多くの「ブラックボックス」モデルとは異なり、F2LLM-v2は完全なオープンソースの道を歩んでいます:

全量公開: あらゆるサイズのモデルウェイトがダウンロード可能です。

詳細な透明性: 完全な技術報告書を公表し、トレーニングプロセスを明らかにしています。

再現可能性: すべてのコードとチェックポイントを解放し、世界中の研究者がその上に二次開発を行うことを奨励しています。

結び:壁を打ち破り、AIの無限の可能性を探る

CodeFuse オープンソースシリーズのまた一つの力作であるF2LLM-v2