






2025年2月14日、昆侖万維集団はMatrix-Zero世界モデルを発表し、中国における空間知能分野における重要な一歩を踏み出しました。Matrix-Zeroには、3Dシーン生成大規模モデルとインタラクティブ動画生成大規模モデルの2つのサブモデルが含まれており、AI技術によるデジタルコンテンツ制作方法の変革、映画制作、ゲーム開発、具象知能などの業界の革新的な発展を目指しています。
一枚の画像から、高品質で広視野角の3Dシーンを効率的に生成することは、長年にわたる研究課題でした。従来の手法は、多くの場合、多視点データに依存したり、シーンごとの最適化に時間を要したり、背景の品質や未観測領域の再構築に課題がありました。既存技術は、単一視点からの3Dシーン生成において、情報の不足から遮蔽領域の誤りや歪み、背景のぼやけ、未観測領域の幾何構造の推定困難といった問題を抱えています。回帰に基づくモデルは、新しい視点の合成を順伝播方式で行うことができますが、複雑なシーンでは…
最近、北京大学と鵬城実験室の研究チームは、ユーザーのテキスト記述から没入感のある完全な3Dシーンを生成することを目的とした、HoloDreamerという新しい3Dシーン生成フレームワークを発表しました。
Adobeは最近、最新のFirefly AIビデオジェネレーターがパブリックベータ版に入ったことを発表しました。これにより、ユーザーはテキストと画像を短編動画に変換できるようになります。この革新的な機能はAdobeのCreative Cloudに統合されており、クリエイターは使い慣れたツールで簡単にAIビデオを生成できます。このビデオジェネレーターの最大の特徴は、1080p解像度、24fpsで最大5秒の長さの短いビデオクリップを生成できることです。ユーザーはシンプルで使いやすいWebインターフェースを介して、テキストプロンプトや画像を入力して動画を作成できます。
Google DeepMindチームは、1000億個の画像テキストペアを含む巨大データセットWebLI-100Bを発表しました。これは、人工知能のビジョン言語モデルの文化的にも言語的にも多様な能力を向上させることを目的としています。このデータセットにより、研究者たちは、異なる文化や言語環境でのビジョン言語モデルのパフォーマンスを改善し、サブグループ間の性能差を縮小することで、AIの包括性を高めることを期待しています。ビジョン言語モデル(VLMs)は、学習のために大規模なデータセットに依存しており、…