音声創作に新たな飛躍！Stability AIがStable Audio 3を発表：長時間音声の秒単位生成

著名な人工知能会社である Stability AI は、この度最新版の音声大規模モデル「Stable Audio3」を正式にリリースし、一部のモデル重みをオープンソース化しました。このシステムは、音声生成と編集に特化した潜在拡散モデルであり、高品質なステレオ出力だけでなく、生成速度においても質的な飛躍を遂げています。

今回のリリースされたモデルシリーズは、サイズが小さいものから大きいものまで幅広く、音楽制作やサウンド効果制作などの多様なニーズに対応しています。特に注目すべきは、変数長の音声生成をサポートし、内補像技術に基づく音声編集機能を導入したことで、クリエイターにこれまでにない柔軟性を提供している点です。

革新的なアーキテクチャでハードウェア制約を打ち破る

Stable Audio3は、2つの主要なコンポーネントから構成されています：SAMEと呼ばれるセマンティックアコースティックオートコーダーと、効率的な拡散トランスフォーマーです。そのうち、SAMEオートコーダーは最大4096倍の音声圧縮率を実現し、これは画期的な設計により潜在シーケンスの長さを大幅に短縮しています。

この効率的な圧縮メカニズムにより、一般的なエントリーレベルのハードウェアでも、長期間かつ大規模な音声生成タスクをスムーズに実行できます。これにより、高品質な音声作成の技術的障壁が顕著に低下し、個人クリエイターが自宅でプロレベルの音声映像制作を行うことが可能になります。

超高効率で即時レンダリングを実現

変数長技術によって、新しいモデルはユーザーが要求する音声の長さに応じて計算コストが動的に調整されるため、従来の固定長による計算リソースの無駄を完全に解消しました。高性能なハードウェアでのテストでは、このモデルは20秒の音声をわずか0.62秒でレンダリングでき、380秒の音楽生成にも1.31秒しかかかりません。

さらに、独自の3段階トレーニングフローにより、Stable Audio3

クレードが経済的な感覚を広げる：AIがどの職業を変革しているのかを一言で尋ねる

Anthropicは自社で構築した経済指数のデータベースをクレードに接続しました。この指標は実際のAIの使用データに基づいています。ユーザーはclaude.aiで直接質問ができ、例えば「どの職業でAIを使用していますか」といった質問に対して、指数から直接答えが出力されるので、モデルが勝手に作り出すことなく、データ駆動型の回答が可能です。これはクレードと現実世界でのAIの使用状況との連携を示しています。

巨額賠償が記録を破った！Anthropicは不正な図書のトレーニングについて15億ドルの和解に合意

サンフランシスコ連邦裁、AI企業Anthropicが海賊版DBから約48万冊を無断DLしモデル訓練に使用した件で、過去最高額の15億ドルの和解を承認。各作品約3000ドルの賠償が作者に支払われ、著作権侵害賠償として史上最大となった。....

音声創作に新たな飛躍！Stability AIがStable Audio 3を発表：長時間音声の秒単位生成

関連推奨

マイクロソフトクラシック版Outlookは年末までにCopilot AIのメール作成機能を統合し、Win10/Win11への対応が行われる予定

Monday.com 630人の従業員が人工智能戦略に注力

OpenAIのAIエージェントの制御不能事件：人工知能の安全性への警告

クレードが経済的な感覚を広げる：AIがどの職業を変革しているのかを一言で尋ねる

巨額賠償が記録を破った！Anthropicは不正な図書のトレーニングについて15億ドルの和解に合意