快手は最近、動画生成ツールのKlingをバージョン2.6にアップグレードし、音声制御と動作制御の2つの主要な機能を追加しました。これはAI動画生成分野において画期的な進歩です。今回のアップデートでは、ネイティブなオーディオ生成が実現され、複雑な動作の処理精度も大幅に向上しました。

音声制御:サウンド効果からカスタム音声の作成まで
Kling 2.6の音声制御機能は、同期された動画のオーディオ生成技術に基づいており、Google Veo3やSora2と同様の性能を持っています。この機能により、動画の内容に合ったサウンド効果、人声、音楽を生成できます。また、話す、会話、ナレーション、歌、ラップなどの多様な人声タイプをサポートしており、環境ノイズや複雑なシーンの音効果も処理可能です。
注目すべき点は、ユーザーが自分の声のモデルをアップロードするか、直接オーディオファイルをアップロードしてテキストから動画を作成できる点です。この画期的な機能により、キャラクターの一貫性が大きく向上します。生成された動画内のキャラクターは明確で認識可能な声を使って話し、複数の動画セグメントを通じて一貫したキャラクターを作成することが可能になります。
Kling AIの応用事例には、製品紹介、ライフスタイルビデオブロッグ、ニュース放送、スポーツ解説、ドキュメンタリー、インタビュー、短編ドラマ、ミュージックパフォーマンスなどがあり、さらには複調合唱のような複雑な形式にも対応しています。
動作制御のアップグレード:複雑な全身動作の正確な捉え方
第二の大きなアップデートは、動作制御システムの全面的な改善に焦点を当てています。Kling AIによると、現在のシステムは体全体の動きをより精細に捉えることができ、武術やダンスのような高速で複雑な動きも正確に処理できます。
同社は特に、従来のAI動画における2つの難関だった手の動きの精度と、顔の表情および口の動きの同期の改善に注目しています。ユーザーは3〜30秒の動作参照フレームをアップロードして連続するシーケンスを作成でき、シーンの詳細はテキストのヒントによって調整可能です。
SNS上では、AIで生成された動画コンテンツが継続的に増加しており、クリエイターたちはこの機会を活かして積極的に作品を作成しています。また、多くの創造的な作品も生まれています。

価格の優位性と市場展開
Kling 2.6は自社プラットフォームだけでなく、Fal.ai、Artlist、Media.ioなどのサードパーティプラットフォームでも利用可能です。APIの料金は、動画生成毎秒あたり0.07〜0.14ドル程度で、生成速度、長さ、解像度に応じて変動し、市場において非常に競争力があります。Kling AI自体はポイント制で課金されます。
12月初頭、快手は「世界初の統合型マルチモーダル動画モデル」として知られるVideo O1を発表しました。このモデルは、テキストの指示で既存の動画を編集でき、主役の変更、天気の変更、動画スタイルの変更などが可能です。
これらの革新機能により、快手はGoogle、OpenAI、Runwayなどの欧米企業、そしてハイロ、セイダ、ウィートゥなどの中国の競合企業と競い合っています。注目すべきは、快手はTikTokと同等規模を持つ世界最大級のショートビデオプラットフォームの一つである快手(Kwai)を運営していることです。これにより、大量の音声・映像データと運動データを取得でき、動画モデルの訓練、音声の同期、動作のリアルさの実現に独自の優位性を獲得しています。
