ビットテクノロジー傘下のボンカイエンジンは5月6日に、豆包の大規模モデルファミリーに初のマルチモーダル理解モデル「Doubao-Seed-2.0-lite」が正式に登場したことを発表しました。このシリーズの重要なアップグレード版として、新モデルは単一モーダルの制限を完全に打ち破り、動画、画像、音声、テキストのネイティブな統合理解を実現し、多モーダルインタラクション分野において重要な一歩を踏み出しました。

このモデルは視覚と論理推論能力において特に優れています。物理や医療などの高度な学問における複雑な推論テストでは、今年2月に公開されたProバージョンを大幅に上回っています。また、細粒度の認識や身体的理解などの先端分野においても業界のリーディングレベルに達しています。音声理解技術を組み込むことで、Doubao-Seed-2.0-liteは「音画同期」の深い連携的な推論が可能です。これは、動画の映像を「理解できる」だけでなく、背景の音声を組み合わせて動画の音声と映像の一貫性を正確に判断できることを意味します。さらに、長時間の動画の中で特定の出来事を正確に特定し、複雑な人物関係の流れを再構成することもできます。

音声処理面において、新しいモデルは非常に高い翻訳と認識精度を示しており、中国語・英語を含む19言語の転写および14言語の相互翻訳をサポートしています。語義の正確な認識に加え、声の中の感情の変化や環境の背景音を敏感に捉えることができ、理解力が人間の自然な認知に近づいています。

注目すべきは、Doubao-Seed-2.0-liteのエージェント(スマート体)とコーディング(プログラミング)能力も同時に進化したことです。モデルは複数の複雑な指示をより正確に従うことができ、より強力な自己分解と検証能力を持っています。開発分野では、そのコード能力はフロントエンドページ、3Dシーン、ゲーム開発をカバーしており、視覚的に美しく工程的に完成された製品を提供することができます。

さらに、このモデルは初めてGUI(グラフィカルユーザーインターフェース)の理解と実行の一体化を実現しました。これにより、ウェブサイトやアプリケーション内のボタンやメニューなどの要素を識別するだけでなく、人間のようにクリック、ドラッグ、入力などの操作も行うことができます。これにより、「界面を理解する」から「エンドツーエンドでタスクを完了する」までの閉ループが実現されました。
現在、この技術はeスポーツの復習、オンライン教育、跨境电商(電子商取引)など多くの分野で実用化されています。例えばeスポーツの場面では、AIがコーチとなり、25時間にも及ぶ試合動画と音声を連続して分析し、戦術的な復習図を自動生成することが可能です。同時に、より効率的なDoubao-Seed-2.0-miniバージョンも同時にリリースされ、企業が大規模かつ低コストでマルチモーダル推論タスクを展開するためのよりコストパフォーマンスの高い選択肢を提供しています。
