テンセント、新たな画像生成ビデオモデルFollow-Your-Pose-v2を発表　複数人物の運動ビデオ生成が可能に

AIbase

AIニュースで公開 · 1 分読む · Jul 19, 2025

チャイナZ（ChinaZ.com）6月11日ニュース:テンセント混元チームは中山大学、香港科技大学と共同で、全く新しい画像から動画を生成するモデル「Follow-Your-Pose-v2」を発表しました。このモデルは、動画生成分野において、単一人物から複数人物への飛躍的な進歩を実現し、集合写真の人物全員を同時に動画の中で動かすことができます。

主な特徴:

複数人物の動画動作生成に対応: 推論時間を短縮しながら、複数人物の動画動作を生成します。
高い汎化能力: 年齢、服装、人種、背景の複雑さ、動作の複雑さに関わらず、高品質な動画を生成します。
日常生活の写真/動画で使用可能: モデルの学習と生成には、日常生活の写真（スナップ写真を含む）や動画を使用でき、高品質な画像/動画を探す必要がありません。
人物の遮蔽を正確に処理: 1枚の画像に複数の人物が互いに重なり合っている場合でも、正しい前後関係を持つ遮蔽された画像を生成します。

技術的な実現:

このモデルは「光流ガイド」を用いて背景の光流情報を導入することで、カメラの揺れや背景の不安定さがあっても、安定した背景アニメーションを生成します。

「推論グラフガイド」と「深度マップガイド」を用いることで、画像内の人物の空間情報と複数キャラクターの空間的位置関係をより正確に理解し、複数キャラクターのアニメーションと体の遮蔽の問題を効果的に解決します。

評価と比較:

研究チームは、約4000フレームの複数キャラクター動画を含む新しいベンチマークMulti-Characterを提案し、複数キャラクター生成の効果を評価しました。

実験結果によると、「Follow-Your-Pose-v2」は、2つの公開データセット（TikTokとTED講演）と7つの指標において、最新の技術を35％以上上回る性能を示しました。

応用分野:

画像から動画を生成する技術は、映画制作、拡張現実、ゲーム制作、広告など、多くの業界で幅広い応用が期待されており、2024年に注目されるAI技術の1つです。

その他情報:

テンセント混元チームは、文言から画像を生成するオープンソースの大規模モデル（混元DiT）の高速化ライブラリも公開し、推論効率を大幅に向上させ、画像生成時間を75％短縮しました。

混元DiTモデルの使用ハードルが下がり、ユーザーはHugging Faceの公式モデルライブラリで3行のコードでモデルを呼び出すことができます。

論文アドレス：https://arxiv.org/pdf/2406.03035

プロジェクトページ：https://top.aibase.com/tool/follow-your-pose

ザッカーバーグがメタAIチームを再編成　3400人規模の新アーキテクチャーが明らかに

メタはAIアーキテクチャーを再編してスーパーアルキテクトラボを設立し、3400人の従業員を統合しました。最高AI担当者はAlexandr Wangです。新しいアーキテクチャーは4つのチームに分かれています：AGI基礎研究、AI製品開発（メタAIアシスタントを含む）、Yann LeCunが率いる基礎AIラボ、そしてLlama5の開発に専念するグループです。メタは高給でOpenAIやアップルなどの企業の人材を引き抜いていますが、これにより元のチームから外部の高給人材への疑問が生じています。最近、アップルの2人のAI責任者が参加しました。

理想自動車が最初の自動車生成型AIセキュリティ評価認証を取得

理想自動車は2025年中国自動車フォーラムで国内で最初の自動車生成型AIセキュリティ二重認証を獲得し、GB/T45654およびGB45438-2025の二つの国家標準認証を初めて通過した企業となった。この認証はCCIA自動車サイバーセキュリティ作業委員会とAI生成コンテンツ識別サービスプラットフォームが共同で発行したもので、コンテンツセキュリティと識別の両分野をカバーしている。この成果は、理想自動車が車載AIGC技術のセキュリティにおいて業界の先駆けであることを示しており、スマートカーのセキュアな発展にモデルを設け、消費者の信頼を強化するものである。

ChatGPTの音声モードがリリース！ワンタップで会議を転記し、計画を生成。AIが効率を飛躍的に向上させます！

OpenAIがChatGPT Plusユーザー向けにmacOSデスクトップアプリの録音機能を全面開放。120分間のリアルタイム録音が可能で、構造化メモやタスク、コード枠を自動生成。プライバシー保護を重視し、処理後はオリジナル音声を削除。現在はmacOS限定だが、他プラットフォームにも拡張予定。会議やブレインストーミングの効率化に貢献するAI生産性ツールの画期的な進化。....

LTX-Video 13Bがリリース！30倍速で高精細動画を生成オープンソースAIで創作に境界なし！

Lightricksがオープンソースのビデオ生成モデルLTX-Video13Bを発表。130億パラメータとマルチスケールレンダリング技術により、同類モデル比30倍の生成速度を実現。消費級GPUで1216×704解像度のリアルタイム生成が可能で、テキスト/画像/動画から動画への多様な創作モードを提供。....

Perplexityがインドに進出：AIのレースでOpenAIに迫る新たな戦略

AI検索企業Perplexityはインド市場で急成長中。Bharti Airtelと独占提携し、3.6億ユーザーに1年間無料Proサービスを提供。ダウンロード数600%増、MAU640%増。Paytmとも協業。商業化が課題だが、通信事業者連携と現地化戦略でインドAI市場攻略を目指す。....