メタは音声処理分野における画期的な技術として、SAM Audioを正式にリリースしました。これは世界で初めての統一されたマルチモーダル音声分離モデルであり、ユーザーが「目で音を聞く」ように、混雑した動画や音声から任意の音をワンクリックで抽出できます。動画内のギタリストをクリックするだけでクリーンなギター音を分離したり、「犬の鳴き声」を入力することでポッドキャスト全体の犬の鳴き声を自動的にフィルターし、時間範囲を指定するだけでノイズを正確に除去することが可能です。この技術は、人間の自然な音の認識方法である「見る」「話す」「指す」「選ぶ」をAIシステムに完全に再現しています。
SAM Audioのコアとなるのは、メタが「耳」と呼ぶ自社開発のペルセプションエンコーダー(PE-AV)です。このエージェントは今年4月にオープンソース化されたメタのPerception Encoderというコンピュータビジョンモデルに基づいて拡張され、高度な視覚理解能力と音声信号を融合させ、マルチモーダルな音声の位置特定と分離を実現しました。
具体的には、SAM Audioは3つの直感的なインタラクティブな方法をサポートしており、単独または組み合わせて使用できます:
- テキストプロンプト: 「人声の歌い方」「車のホーン」などの意味的な記述を入力すると、対応する音源を自動的に抽出します。
- 視覚プロンプト: 動画画面内で音を出す物体(話している人、ドラムを叩いている手など)をクリックすると、その音声をシステムが分離します。
- 時間区間プロンプト(業界初の仕様): 目的の音が出現する時間区間(例:「3分12秒から3分18秒」)を指定すると、モデルがその録音全体の同種の音を自動処理します。メタはこれを『サイバーパンク2077』の「スーパームーン」技術に似ていると述べています。
技術の標準化を推進するために、メタは同時に2つの重要なツールをオープンソース化しました:
- SAM Audio-Bench: 真実のシナリオに基づいた最初の音声分離評価基準。
- SAM Audio Judge: 音声分離品質を自動的に評価するための世界初のモデルであり、分離結果の純粋さと完成度を数値的に判断することができます。
今回のリリースされたPE-AVはSAM Audioの基本的なエージェントであり、メタの他のAI製品にも活用されます。これには字幕生成、ビデオ理解、スマート編集システムなどが含まれます。このオープンソース化により、今後開発者は独自の「視聴連想」AIアプリケーションを構築できるようになります。例えば、ノイズ除去の会議記録の自動作成、没入型AR音声インタラクション、そして障害者向けの補助聴覚機器などが考えられます。
