アリババクラウド魔搭、階躍星辰の最新オープンソースの2つのマルチモーダルモデルを初公開


本日、階躍星辰と吉利汽車集団は、階躍Stepシリーズのマルチモーダル大規模モデル2つ——Step-Video-T2V動画生成モデルとStep-Audio音声モデル——を共同でオープンソース化すると発表しました。その中で、階躍Step-Video-T2V動画生成モデルは、パラメータ数と性能において世界をリードするレベルにあります。このモデルは300億個のパラメータを持ち、204フレーム、540Pの高解像度動画を直接生成でき、生成されたコンテンツの情報密度が高く、一貫性が高いことを保証します。評価結果によると、
百度の文心インテリジェントエージェントプラットフォームは、DeepSeekモデルを全面的に接続し、すべてのユーザーに無料で開放しました。文心インテリジェントエージェントプラットフォームは、百度が提供する文心大モデルに基づいたインテリジェントエージェント構築プラットフォームで、ユーザーが迅速にインテリジェントエージェントアプリケーションを作成および展開するのを支援することを目的としています。
日本の人工知能スタートアップSakana AIは、「AI CUDAエンジニア」を発表しました。この革新的なAIシステムは、高度に最適化されたCUDAカーネルの自動生成を目指し、機械学習操作の実行効率を大幅に向上させます。最新のXプラットフォームからの情報によれば、このシステムは進化した大規模言語モデル(LLM)を基盤にしたコード最適化技術により、一般的なPyTorch操作の実行速度を10倍から100倍に向上させることを実現し、AI技術がGPU性能において新たなマイルストーンを打ち立てることを示しています。
Ovis2はアリババ国際チームが提案したOvisシリーズモデルの最新バージョンです。前の1.6バージョンと比べて、Ovis2はデータ構築とトレーニング手法において顕著な改善がなされています。小規模モデルの能力密度を強化しただけでなく、指示微調整と好み学習を通じて思考チェーン(CoT)推論能力を大幅に向上させました。さらに、Ovis2は動画および複数の画像処理能力を導入し、多言語能力と複雑なシーンでのOCR能力を強化し、モデルの実用性を大幅に向上させました。
イーロン・マスク(Elon Musk)氏の人工知能会社xAIは、新たに設立されたゲームスタジオがゲーム業界の現状を根本的に変えると発表しました。このスタジオは、最新のAIモデルGrok3を活用し、ゲーム開発をかつてないほど効率的かつ便利にする予定です。ユーザーはわずか数分でGrok3を使って完全なゲームを生成でき、簡単な質問をするだけでゲームのグラフィック品質を向上させることも可能です。画像出典:画像はAIによって生成され、画像提供サービスプロバイダーのMidjourneyによるものです。