グーグルのDeepMindは最近、新規のPythonライブラリ「GenAI Processors」をオープンソースとして発表しました。このツールは、非同期で組み合わせ可能な生成型AIワークフローを構築するための軽量で効率的な手段を提供します。このオープンソースライブラリは、複雑なマルチモーダルAIアプリケーションの開発プロセスを簡略化することを目的としており、音声、動画、テキストなどのマルチモーダルデータのリアルタイム処理をサポートし、Gemini APIに基づくアプリケーションの開発効率を大幅に向上させます。

image.png

GenAI Processorsの機能の特徴:モジュラと非同期処理

GenAI Processorsのコアは、一貫した「Processor」インターフェースです。開発者はこのインターフェースを通じて、複雑なAIワークフローをモジュール化された処理ユニットに分解できます。これらのユニットは、入力の前処理からモデル呼び出し、出力の生成に至るまでのすべてのプロセスを処理でき、音声の断片、テキストのトランスクリプト、画像フレームなどのマルチモーダルデータの非同期ストリーム処理をサポートしています。AIbase編集部のテストによると、このライブラリはPythonのasyncioメカニズムによって並行実行が最適化されており、I/O密集型タスクの遅延が顕著に低下しており、音声アシスタントや動画処理ツールなどのリアルタイムアプリケーションの開発がより効率的になります。

このライブラリは特にグーグルのGemini APIに最適化されており、GenaiModelとLiveProcessorという2つのプロセッサが内蔵されています。それぞれがループベースの対話とリアルタイムストリーム処理をサポートしています。開発者はわずか数行のコードで、マイクやカメラからの入力をサポートするリアルタイムAIエージェントを構築できます。例えば、ビデオと音声入力の処理フローを組み合わせることで、GenAI Processorsはリアルタイム翻訳やスマートアシスタントのようなアプリケーションを迅速に構築でき、非常に高い柔軟性と拡張性を示しています。

技術の核:ストリーミングAPIと並列最適化

GenAI ProcessorsはストリーミングAPIをコアとしており、すべての入力と出力をProcessorPartsの非同期データストリームとして扱います。各データユニット(例:音声の断片や画像フレーム)にはメタデータが付随します。この設計により、データストリームの順序性が保証され、また組み込みの並列最適化機構によって「最初のトークンにかかる時間(Time To First Token)」を最大限に削減することができます。AIbaseによると、このライブラリのモジュール化設計により、開発者は異なる処理ユニットをスムーズに接続して複雑なワークフローを構築でき、コードの再利用性と保守性を維持することが可能です。

現在、GenAI ProcessorsはPythonのみをサポートしていますが、そのコアディレクトリには基本的なプロセッサが含まれており、コミュニティの開発者はcontribディレクトリを通じて専用機能を貢献できます。グーグルのDeepMindは、今後コミュニティ協力を通じてライブラリの機能をさらに拡張し、さまざまなシナリオとプログラミング言語をカバーしていく予定であると述べています。

業界への影響:生成型AIアプリケーションの開発を加速

GenAI Processorsのオープンソースリリースにより、開発者は高性能なGeminiアプリケーションを構築するための簡単なツールを手に入れることが可能になりました。特にリアルタイムのマルチモーダル処理の場面では優れた性能を発揮します。伝統的な生成型AI開発フレームワークと比較すると、このライブラリはモジュラーおよび非同期処理により開発の複雑さを顕著に低減しており、特に低遅延が必要なリアルタイムアプリケーション(例:スマートカスタマーサポート、リアルタイム翻訳、マルチモーダルインタラクティブエージェント)に適しています。AIbaseの分析によると、GenAI Processorsのオープンソース化は生成型AIエコシステムのオープン性をさらに推進し、多くの開発者が革新に参加するよう促すでしょう。