AI分野で常に革新を続けるGoogleは、先日、エキサイティングな計画を発表しました。Google DeepMindのCEOであるDemis Hassabis氏は、Podcast番組「Possible」で、同社のGemini AIモデルとVeo動画生成モデルを統合する計画を明らかにしました。この取り組みは、Geminiの物理世界に対する理解能力を高め、現実世界でユーザーを支援できる真の汎用デジタルアシスタントの開発を目指しています。

Hassabis氏は、Geminiモデルは当初から、様々な種類データや情報を処理できるマルチモーダルシステムとして設計されたと述べています。「私たちのビジョンは、様々なメディア形式を統合できるアシスタントを構築することで、世界をより深く理解し、世界とやり取りできるようにすることです。」と彼は言及しました。現在、Geminiモデルは画像、テキスト、音声の生成が可能であり、強力なマルチモーダル能力を示しています。

image.png

注目すべきは、AI業界全体が「万能」モデルへと向かっていることであり、多くの企業が同様の方向性を模索しています。例えば、OpenAIのChatGPTはテキスト会話の処理だけでなく、芸術的なスタイルの画像も生成できます。さらに、Amazonも全く新しい「任意から任意」のモデルを発表する予定で、より高度なマルチモーダル機能の実現を目指しています。

Hassabis氏は、Veoモデルのトレーニングデータは主にGoogle傘下のYouTubeプラットフォームから取得されたと明かしました。大量のYouTube動画を分析することで、Veoは世界の物理法則を効果的に学習できます。「Veo2は大量の動画を見ることで、現実世界の仕組みをより深く理解できるようになります。」と彼は述べています。これは、Veoのトレーニングで使用されるデータが豊富で、実用的な価値を持つことを示しています。

Googleは昨年、AIモデルのトレーニングに使用するYouTubeコンテンツを増やすため、サービス利用規約を拡大しており、モデルの多様性と正確性を確保しています。このようなデータ取得戦略は、GeminiとVeoの統合に堅実な基盤を提供し、間もなく登場するスマートアシスタントがユーザーのニーズをより包括的かつ深く理解し、応答できるようにします。

技術の進歩に伴い、Googleのこの計画は、AIアシスタントが単一タスクに限定されなくなることを示唆しており、複数の分野で実用的なサポートを提供し、ユーザーの生活にさらなる利便性をもたらすでしょう。