智譜AI、新モデルをオープンソース化、古いグラフィックボードでも動画生成の新時代へ

最近、智譜AI社は、新しい動画生成モデルCogVideoX-5Bをオープンソース化しました。これは、前世代のCogVideoX-2Bを上回る動画生成の質と視覚効果を実現しただけでなく、推論性能も大幅に向上しました。そのため、以前はGTX1080Tiなどの高性能グラフィックボードが必要だったのが、今ではRTX3060などのミドルレンジのグラフィックボードでも簡単に動作させることができます。

CogVideoX-5BとCogVideoX-2Bの詳細なパラメータ比較：

この大規模なDiT（拡散トランスフォーマー）モデルは、テキストから動画を生成するタスク向けに設計されています。その基盤技術には、3D因果変分オートエンコーダ(3D causal VAE)が含まれており、この技術は動画データを潜在空間に圧縮し、時間次元で復号することで、効率的な動画再構成を実現しています。

さらに、エキスパートトランスフォーマー（Expert Transformer）を使用することで、テキスト埋め込みと動画埋め込みを組み合わせ、3D-RoPEを位置エンコーディングとして採用し、エキスパート適応層正規化処理によって2つのモダリティのデータを処理し、3D全注意機構を用いて時空間の統合モデリングを行っています。

コード：https://top.aibase.com/tool/cogvideox

モデルダウンロード：https://huggingface.co/THUDM/CogVideoX-5b

論文リンク：https://arxiv.org/pdf/2408.06072

バイトダンスと大学が共同開発！STARモデル：動画の鮮明度と解像度を向上

南京大学の研究チームが、バイトダンス、西南大学と共同で、革新的な技術STAR（Spatial-Temporal Augmentation with Text-to-Video Models）を発表しました。これはテキストから動画を生成するモデルを利用し、現実世界の動画の超解像度処理を実現する技術です。この技術は時空間拡張手法を組み合わせることで、低解像度の動画の画質を効果的に向上させ、特に動画共有プラットフォームからダウンロードした低画質の動画に適しています。

NIO、AI搭載スマートシステムBanyan 3.0.0を発表

NIOは、スマートシステムの最新バージョンであるBanyan 3.0.0を発表しました。今回のアップデートでは、数多くの主要機能の追加と最適化が行われ、ユーザーエクスペリエンスの向上を目指しています。AIスマートシャーシにおいては、4D全方位快適航行機能がアップグレードされ、ナビゲーション不要で起動可能になり、新しい凹凸指数も追加され、ES6とEC6モデルに適用されています。NOMIスマートアシスタントには、駐車アシスト、セキュリティガード、サービスコンシェルジュ、探索、DJ、旅行の思い出など、6つの主要機能が追加され、NOMIによる提案や全車室記憶機能も導入され、パーソナライズされたサービスを提供します。

センスタイム上半期決算が好調：生成AI事業が急成長、従来型AIを上回る

センスタイムは2024年上半期決算でAI分野の強さを示しました。特に生成AI事業は前年同期比256％増と急成長し、初めて従来型AI事業を上回り、総収益の60％を占めました。総収益は17.4億元に達し、前年同期比21％増となりました。純損失は24.7億円でしたが、損失幅は前年同期比21％縮小しました。生成AI事業の好調な業績は、同社の事業戦略における重点分野の転換を示しており、高い技術力を証明しています。同社の大規模言語モデル「日日新」は、複数の評価でGPT-4Tuを上回る性能を示したと報告されています。

デルテクノロジーズ、インドで生成AI基礎コースと職業資格を発表

デルテクノロジーズはインドにおいてAIスキル育成を加速するため、生成AI基礎コースと職業資格を発表しました。これは、専門家がAIと機械学習の知識を習得し、企業変革を推進することを目的としています。テクノロジーフォーラムに登録した上位250名にはデル認定が提供されます。コースではAIガバナンスとセキュリティを網羅し、医療や交通などの分野でAIを適用するため、複数の機関と連携しています。NVIDIAとの連携により、エンドツーエンドのAIソリューションを発表し、4.4兆米ドルの経済効果を生み出すと予測されています。

AI顔面交換技術の全貌：マスク氏が「登場」したライブ配信、真偽不明で話題に