アリババ・ワン2.2が衝撃的に登場：オープンソースの動画生成AIがSoraに挑む

アリババクラウドは、注目を集める動画生成AIモデル「Wan2.2」が近日中に正式リリースされる予定であることを発表しました。Wan2.1のアップグレード版であるWan2.2は、パフォーマンス、効率、機能において大きな進歩を遂げ、アリババのオープンソースAI戦略を引き続き推進し、世界のAI動画生成分野でのリーダー的地位を強化する予定です。2025年2月にオープンソース化され広く成功を収めたWan2.1に続いて、Wan2.2の登場は開発者コミュニティや業界で熱烈な議論を巻き起こしています。

Wan2.2：技術革新、パフォーマンスの再突破

Wan2.1は、時空間変分自己符号化器（VAE）と拡散変換器（DiT）のアーキテクチャにより、VBenchベンチマークテストでOpenAIのSora（84.28%）を84.7%で上回りました。SNS上の議論によると、Wan2.2はこれらの技術をさらに最適化し、特に高解像度（例: 1080p）や長時間の動画生成における速度と品質を大幅に向上させる予定です。追加機能には以下が含まれます:

テキストから動画（T2V）: より高い解像度（例: 1080pや4K）およびより長い動画生成をサポートし、生成時間をさらに短縮します。
画像から動画（I2V）: 動的なシーンの滑らかさと現実性を向上させ、より複雑な動作やシーンの切り替えをサポートします。
動画から音声（V2A）: 動画コンテンツから一致する音声を生成する能力を強化し、マルチモーダル創作体験を向上させます。
多言語とスタイル拡張: より多くの言語のテキスト効果生成をサポートし、サイバーパンクやリアリスティックアニメーションなど、多様な芸術スタイルテンプレートを追加します。
ハードウェア最適化: ハードウェア要件をさらに低下させ、T2V-1.3Bモデルはより低いメモリ（例: 6GB）を持つデバイスでも動作可能となり、ユーザー範囲を広げます。

Wan2.2のトレーニングデータは、Wan2.1（15億本の動画、100億枚の画像）の基礎の上にさらに拡充され、データの選別を最適化して生成内容の多様性と現実性を向上させる予定です。

Wan2.2はApache2.0ライセンスを引き続き採用し、Alibaba Cloud ModelScopeとHugging Faceを通じてコードとモデル重みを無料で提供し、学術研究や商業利用を支援します。Wan2.1にはT2V-1.3B、T2V-14B、I2V-14B-720P、I2V-14B-480Pの4つのバリアントが登場しましたが、Wan2.2はさらなるモデルバリアントを追加し、異なるハードウェアとシナリオに合わせた最適化を進めると予想されます。

開発者たちはWan2.2のオープンソースへの展望に期待しており、それがOpenAIのSoraなどの閉鎖型モデルの市場支配力をさらに挑戦し、AI動画生成技術の民主化を促進すると考えています。アリババのこの行動は、技術のハードルを下げ、世界中の開発者にさらに多くのイノベーションの空間を提供しています。

快手がKAT-V1大モデルをオープンソース化：自動思考能力が大幅に向上 40BバージョンのパフォーマンスはDeepSeek-R1に近づき、200Bバージョンは複数のエリートモデルを上回る

快手がオープンソースしたKAT-V1自動思考大モデルには、40Bおよび200Bの2つのバージョンが含まれます。40BバージョンのパフォーマンスはDeepSeek-R1に近づき、200Bバージョンはいくつかのエリートモデルを上回っています。このモデルは、長所と短所の混合トレーニングアプローチとStep-SRPO強化学習アルゴリズムを独自に採用しており、問題の複雑さに応じて自動的に思考モードを調整し、過度な思考の問題を解決できます。Qwen2.5-32Bに基づき、異質蒸留フレームワークと1000万個の例を用いた前訓練により、科学やコードなどの分野で優れた性能を発揮します

Figma Make すべてのユーザーにオープン：AIを活用したデザイン、効率は手の届くところ

FigmaがAIデザインツール「Figma Make」を全面公開。自然言語でアプリ原型を生成可能。基本機能は無料で利用可だが、全機能は有料プランが必要。AI生成の参考画像アップロードや編集機能も提供。AI利用にクレジット制を導入、有料会員は無制限。画像生成・編集などAI機能も統合し、デザイン支援エコシステムを構築。....

3分の1のアメリカ人がAIツールを活用してキャリア転向を検討

調査によると、アメリカ人の約1/3がChatGPTなどのAIツールをキャリアチェンジに利用。Z世代の57%が転職を検討、AIは履歴書作成(43%)や求人調査(47%)に活用されるが、60%は人間のアドバイザーをより信頼。専門家は5年以内にAIが事務職の半数を代替すると予測。....

グーグルがAIアプリケーション構築ツール「Opal」をリリース：コードなしで自然言語を使用してAIアプリケーションを作成可能

Googleが革新的なノーコードAI開発ツール「Opal」を発表。自然言語でAIミニアプリを作成可能。Geminiモデルを活用し、画像処理やコンテンツ作成を自動化。技術的障壁を大幅に低減し、教育・マーケティング分野での活用が見込まれる。現在米国でβテスト中。....