アリババが最近発表した音声駆動型の肖像ビデオ生成フレームワークEMOは、入力音声に基づいて任意の長さのビデオを生成できます。このフレームワークはアリババのインテリジェントコンピューティング研究所のチームによって開発され、表現力豊かなビデオ生成技術です。EMOは従来のAIビデオ生成手法と比べて大幅な改善が見られますが、処理時間がかかるという欠点もあります。チームメンバーには薄列峰氏などが含まれ、論文でEMOの技術ルートと特性について詳しく説明しています。この新技術はAI分野に新たなブレークスルーをもたらし、人々の未来への期待を高めています。
関連推奨
航空券の購入は一言で!東方航空とアリババの千問が提携し、国内初のコンシューマー向けAI飛行時代を切り開く
東航はアリババのAI「千問」と提携し、中国初の消費向けAIを導入した航空会社に。旅客は一言でチケット検索・予約が可能で、補助金も適用。従来の検索から対話型サービスへ進化し、購入プロセスを大幅に簡素化。今後は「航空券+」や生活サービス分野での連携を深化予定。....
Feb 11, 2026
151.7k
アリババ新世代オープンソースモデル Qwen3.5の詳細が公開:春节に原生 VLM をサポートしてリリースされる可能性
アリババが新たに開発した基盤モデル Qwen3.5 が近日リリース予定で、HuggingFaceにコードマージ申請を提出しています。このモデルは新しいミックスドアテンションメカニズムを採用しており、視覚理解をネイティブにサポートする可能性があります。少なくとも2Bの密集型モデルと35B-A3BのMoEモデルがオープンソース化される見込みで、春節に正式なオープンソースリリースが期待されています。
Feb 9, 2026
314.7k
中国製AI大規模モデルが一斉に登場:技術の頂点を達成、資金の注目を集めている
中国製AI大規模モデルが突破を遂げ、智源研究院のEmu3モデルが『ネイチャー』雑誌に掲載され、中国の大規模モデル分野で初めての国際的なトップ学術的認可を獲得し、これは下位レベルの構造革新において重要な進展を示している。
Feb 4, 2026
182.6k
キーボードを捨てて:GensparkがWorkspace 2.0を発表し、音声によるオフィス作業の新しい時代を開く
GensparkがAI Workspace2.0を発表し、音声駆動を核に知識労働者の業務スタイルを革新。独立ツールSpeaklyはmacOS/Windows対応で、自然音声による複雑な自動化を実現。....
Jan 30, 2026
220.1k
クラウド主導権を争う:バイチューとアリババ、春節期間中に新たな大規模モデルを発表予定
バイトダンスとアリババが春節前後に次世代基盤モデル技術を発表予定で、競争が激化。バイトダンスは言語処理、画像生成、動画分野の3つのコアモデルを投入し、市場構造に挑む。....
Jan 30, 2026
163.9k
