2025年世界計算大会において、コンゴン・エイ・アイは昇騰(Ascend)プラットフォームに基づく全モーダル統合モデル「BaiZe-Omni-14b-a2b」を正式に発表しました。この新モデルは、テキスト、音声、画像、動画の理解と生成能力が強く、モーダル分離符号化、統一跨モーダル統合、二本枝機能設計などの革新技術アーキテクチャを採用し、マルチモーダルアプリケーションの発展を推進することを目的としています。

image.png

BaiZe-Omni-14b-a2b の設計プロセスは明確で、入力処理、モーダル適応、跨モーダル統合、コア機能、出力デコードなどのステップを含んでいます。計算効率を最適化するために、このモデルはMoE+TransformerXアーキテクチャに多線形アテンション層と単層混合アテンション集約層を導入し、大規模な全モーダルアプリケーションの実施を確保しています。また、モデルの二本枝設計により、理解と生成能力の両方に顕著な優位性があり、最大10種類のタスクを効果的に処理し、強力なマルチモーダルコンテンツ生成能力を持っています。

モデルのトレーニング过程中において、コンゴン・エイ・アイは豊富な高品質データを使用しました。トレーニングデータには、3.57兆以上のトークンのテキストデータ、30万時間以上の音声データ、4億枚の画像、40万時間以上の動画データが含まれており、単モーダルデータの純度と跨モーダルデータの対応品質を確保しています。差別化されたデータ比率により、モデルは異なるトレーニング段階で性能を段階的に向上させています。

パフォーマンスに関して、BaiZe-Omni-14b-a2b はマルチモーダル理解の核心指標で優れた表現を見せ、テキスト理解の正確率は89.3%です。長文シーケンス処理の場面では、32768トークンのテキスト要約タスクにおけるROUGE-Lスコアは0.521であり、業界の主流モデルであるGPT-4の0.487を大幅に上回っています。さらに、このモデルは多言語テキスト生成および画像、音声、動画のマルチモーダル生成をサポートしており、その強力な総合能力を示しています。

ポイント:

🌐 ** 全モーダル能力 **: BaiZe-Omni-14b-a2b は強力なテキスト、音声、画像、動画の理解と生成能力を持っています。

📈 ** パフォーマンスが突出 **: モデルはテキスト理解と長文シーケンス処理で優れた性能を見せ、ROUGE-Lスコアが同様のモデルを大きく上回っています。

💡 ** 多領域応用 **: このモデルはスマートカスタマーサービス、コンテンツ制作など複数の分野に技術支援を提供し、AI技術の進歩を推進します。