2025年7月、アリババ・トングイラボはその初の音声生成モデル「ThinkSound」を正式にオープンソース化しました。このモデルは動画コンテンツ制作に革命をもたらし、画期的な突破を実現しました。このマルチモーダルAIモデルは、動画、テキスト、または音声の入力に基づき、高品質なサウンドエフェクトとサウンドスケープを生成することができ、画面の内容に完璧に適合します。映画制作、ゲーム開発、マルチメディア制作などに新たな活力を注入します。AIbaseは最新情報を基に、ThinkSoundの独自の利点と業界への影響を深く分析し、AIによる音響生成の新しい最前線をお伝えします。

 ThinkSound: AI「サウンドエンジニア」が登場

ThinkSoundはアリババ・トングイラボが公開した革新的な音声生成モデルです。このモデルは先進的なチェーン・オブ・シンス(Chain-of-Thought、CoT)技術を使用しており、動画のシーン、動作、感情を深く分析し、それに高度に一致する音響を生成できます。自然な風の音や都市の喧騒、キャラクターの会話や物体同士の衝突音など、あらゆる音響をリアルで自然に再現できます。公式のデモでは、このモデルが生成する音響が現実性とシーンとの適合度において優れた結果を示しており、「プロ級のAIサウンドエンジニア」として評価されています。

image.png

体験URL:https://www.modelscope.cn/studios/iic/ThinkSound

このモデルは動画、テキスト、音声、またはそれらの組み合わせなどのさまざまな入力モードをサポートしており、応用範囲を大幅に広げています。ユーザーは簡単なテキスト記述や動画の一部を提示するだけで、特定のシーンに適した音響を迅速に生成でき、言葉の指示により正確な音響編集と最適化も可能です。

 技術の特徴: マルチモーダル融合と高精度同期

ThinkSoundの最大の強みは、マルチモーダルAIアーキテクチャにあります。コンピュータビジョン、自然言語処理、および音声生成技術を統合しています。その先進的なコンピュータビジョンアルゴリズムは、動画のフレームごとに詳細に分析し、物体間の相互作用、環境背景、人物の行動を理解することで、非常にマッチする音響とサウンドスケープを生成します。例えば、自然の場面では、せせらぎの音や鳥の鳴き声を生成したり、都市の場面では、車のサイレンや人混みの雑音を正確に再現します。

また、ThinkSoundは音声と画像の同期において特に優れていると言えます。そのアルゴリズムにより、音声と動画のフレームが正確に整列され、MP4、MOV、AVI、MKVなどの多様な動画形式をサポートし、SDから4Kまでの解像度に対応し、さまざまな創作ニーズに応えます。公式データによると、ThinkSoundは動画-音声生成のベンチマークテストで業界をリードしており、その強力な技術力を示しています。

 オープンソースによる支援: 制作のハードルを下げ、世界中の開発者を支援

アリババのオープンソース戦略の一環として、ThinkSoundのモデル重みと推論スクリプトは全面的に公開されており、Hugging Face、ModelScope、GitHubを通じて無料で取得できます。この取り組みにより、AIによる音響生成の技術的ハードルは大幅に低下し、中小規模のクリエイター、独立開発者、研究者などが専門的な音響生成ツールに簡単にアクセスできるようになりました。ThinkSoundはインタラクティブな編集機能も提供しており、クリックや言葉の指示によって特定の音響を詳細に調整可能であり、創造の柔軟性を大幅に向上させます。

アリババは以前からAI分野で複数のオープンソースプロジェクトを展開しており、Qwen言語モデルやWan2.1動画生成モデルなど、累計ダウンロード数は330万回を超えています。これは、アリババがグローバルなAIエコシステムに対して果たした深い貢献を示しています。今回のThinkSoundのオープンソース化により、アリババはマルチモーダルAI分野でのリーダーシップをさらに強固にしています。

 応用シーン: 映画からゲームまで、音響の新時代を開く

ThinkSoundの応用可能性は広範囲に及び、映画の後期制作、ゲームの音響設計、インタラクティブメディア、教育コンテンツ制作など、多くの分野に及んでいます。映画制作には、無音の動画に環境音やキャラクターの会話、バックグラウンドミュージックを迅速に生成することが可能で、後期制作の効率を著しく向上させます。ゲーム開発者は、動的な音響を生成し、仮想シーンに没入感を追加できます。また、ThinkSoundの音声合成技術は、多言語の会話を生成し、正確な口元同期と感情表現を組み合わせることで、仮想キャラクターによりリアルな命を吹き込みます。

ユーザーからのフィードバックによると、ThinkSoundは多くのコンテンツクリエイターおよび音響専門家から好評を得ており、作業プロセスの簡素化と創作品質の向上において特に顕著な成果を収めています。今後、多くの開発者がThinkSoundをもとに二次開発を行うことで、さらなる革新的な応用シーンが生まれることが予想されます。

 将来展望: マルチモーダルAIの次のステップ

ThinkSoundの登場は、AI音響生成技術が新たな段階に入ったことを意味しています。マルチモーダル融合とチェーン・オブ・シンス技術の導入により、業界の新しい基準を設定しています。従来の音響生成ツールに比べて、ThinkSoundは生成効率を向上させ、音声と画像の同期および感情表現において質的な飛躍を遂げました。アリババがビデオ生成(Wan2.1シリーズ)や音声生成(Qwen-TTS、FunAudioLLM)分野で継続的なイノベーションを遂げていることから、マルチモーダルAIの未来には無限の可能性があります。

AIbaseの見解: ThinkSoundのオープンソース化は、コンテンツクリエイターにとって効率的なツールを提供するだけでなく、AI音響生成分野に新たな活力をもたらしました。今後、マルチモーダルAI技術がさらに成熟していくにつれて、音響生成は現実性、個別性、対話性において大きな進展を遂げるでしょう。アリババのオープンソース戦略は、こうした進展を加速させるものであり、グローバルなAIエコシステムに新たな可能性をもたらすものです。