最近、百度は人工知能分野でさらなる進展を遂げ、世界初の双デジタルヒューマンインタラクティブライブストリームを発表しました。この革新的な応用は、百度のWenxin大規模モデル4.5Turbo(以下4.5T)に基づいており、言語、音声、そして画像のマルチモーダルな高精度な統合により、デジタルヒューマンとユーザー間の自然かつスムーズな対話実現に貢献しています。これにより、ライブ配信業界に新たな可能性をもたらしました。AIbaseはネット上の最新情報を基に、この技術革新およびその業界への長期的な影響について深く解説します。

双デジタルヒューマンライブストリーム:マルチモーダル技術の新しい舞台

百度の双デジタルヒューマンインタラクティブライブストリームは、Wenxin大規模モデル4.5Tの最新の応用成果です。このライブストリームでは、二つのデジタルヒューマン司会者が協力して働き、言語生成、音声合成、そして仮想キャラクターのリアルタイムレンダリングの強力な機能を示しています。リアルタイムでの対話、感情表現、さらには観客とのダイナミックな相互作用において、デジタルヒューマンは自然かつスムーズに動作し、まるで人間のようになります。また、文心4.5Tのマルチモーダル連携モデリング能力によって、テキスト、画像、音声などの入出力を同時に処理でき、音声と口唇、表情と意味の高い一貫性を確保しています。

ライブ、抽選 (2)

従来のデジタルヒューマンと比較すると、百度の双デジタルヒューマンライブストリームはインタラクション面で飛躍的な進歩を遂げています。デジタルヒューマンはユーザーからの質問に対してリアルタイムに回答を生成できるだけでなく、感情分析を通じてトーンや表情を調整することも可能です。さらにライブ中では即興パフォーマンスや共同解説を行うこともできます。このようなマルチモーダル協調最適化の特性により、ライブコンテンツはより魅力的かつ没入感のあるものとなり、EC、エンターテインメント、教育などさまざまな分野で新しいコンテンツ作成方法が提供されています。

文心大規模モデル4.5T:マルチモーダル技術のコアエンジン

文心大規模モデル4.5Tは、百度の最新世代のネイティブマルチモーダル大規模モデルであり、双デジタルヒューマンライブストリームを支えるコア技術です。ネットワーク情報によると、文心4.5Tは理解、生成、論理推論、記憶の4つの主要な能力において全面的にアップデートされており、特にマルチモーダル理解とクロスモーダル移行能力で他社の競合製品(OpenAIのGPT-4.5やDeepSeekのV3など)を凌駕しています。

具体的には、文心4.5Tはマルチモーダル連携モデリングを通じて、テキスト、画像、音声など多様なデータを統一的に処理できるようになりました。前世代モデルと比べて、推論速度は30%向上し、トレーニングコストは80%削減され、API呼び出し費用はGPT-4.5の1%以下となっています。企業や開発者にとって高効率でコストパフォーマンスの高いソリューションを提供します。さらに、文心4.5Tは自己フィードバック強化フレームワークを導入しており、「トレーニング-生成-フィードバック-強化」の閉ループ反復プロセスを通じて、モデルの幻覚現象を大幅に減少させ、複雑なタスクの処理能力を向上させています。

業界への影響:ライブ配信とコンテンツ制作エコシステムの再構築

百度双デジタルヒューマンインタラクティブライブストリームの登場は、技術的な進展だけではなく、ライブ配信業界やコンテンツ制作エコシステムにも大きな影響を与えました。ネットワーク上のコメントによれば、双デジタルヒューマンライブストリームはコンテンツ制作コストを大幅に削減し、コンテンツの多様性と個別化を向上させることが可能です。例えば、ECライブ配信では、デジタルヒューマンが24時間体制でオンラインになり、ブランド調性に合わせたマーケティングコピーとインタラクティブコンテンツを自動生成することができます。教育分野では、デジタルヒューマン司会者が学生に没入型学習体験を提供できるようになります。

一方で、文心4.5Tの低コストと高性能は、中小企業や開発者にとって多くの可能性をもたらしました。百度スマートクラウドのQianfanプラットフォームでは既に文心4.5TのAPIインターフェースが公開されており、企業ユーザーは低コード設定を通じてカスタマイズされたスマートアプリケーションを迅速に開発できます。さらに、百度は2025年6月30日に文心4.5シリーズをオープンソース化する計画を立てており、技術の障壁をさらに下げ、マルチモーダルAIを各業界で広範に活用するための一助を提供します。

未来の展望:マルチモーダルAIの無限の可能性

百度双デジタルヒューマンインタラクティブライブストリームの成功は、マルチモーダルAIが研究室から実際の応用に至る重要なマイルストーンを示しています。AIbaseは、文心大規模モデル4.5Tの進化がデジタルヒューマン技術のインタラクション体験を向上させただけでなく、文化継承、仮想現実、スマートカスタマーサービスといった分野でのAI応用に新しい局面を開いたことを認めています。例えば、百度は中国文物交流センターと協力して、文心大規模モデルに基づく文博スマートボディを発表し、文物知識をより生き生きとした形でデジタルヒューマンを通じて表現しています。

文心大規模モデル5.0の開発が進行中であり、業界全体が百度がマルチモーダルAI分野でさらなる革新をもたらすことに期待を寄せています。