アリババの通義实验室XR实验室は、テキストによる3Dモデルとテクスチャの生成を可能にする新しい文生成3Dモデルをオープンソース化しました。オープンソース化されたモデルには、Text-to-NDとText-to-ND-MVの2つの大規模モデルが含まれています。通義实验室XR实验室は、Text-to-NDの基本バージョンとマルチビューバージョンを公開し、様々な粒度のアルゴリズム開発ニーズに対応しています。さらに、大規模モデルから蒸留された(Score Distillation Sampling)3Dモデルの最適化コードも同時に公開されており、これらを組み合わせることで、テキストから直接3Dモデルを生成することができます。
関連推奨
エイレン人工知能研究所が Molmo 2 オープンソース動画言語モデルをリリース
エイレン人工知能研究所は、オープンソースの動画言語モデルである Molmo2 シリーズを発表しました。このシリーズには、アリババの Qwen3 を基盤にした 4B と 8B バージョン、および Ai2Olmo を基盤とした完全なオープンソースの 7B バージョンが含まれており、トレーニングデータも公開され、そのオープンソースへのコミットメントが示されています。
Dec 17, 2025
147.0k
メタのオープンソース神話崩壊:閉鎖型新モデルはアリババのQwenで訓練 収益を追ってザッカーバーグが戦略転換
メタは2026年春に「Avocado」という名称のAIモデルを発表する予定で、閉鎖型への転向を示唆している。このモデルはアリババのオープンソースモデルであるQwenを使用して訓練されている。そのニュースは市場に注目をあつめ、アリババの株価が上昇した。
Dec 12, 2025
199.5k
ZhiPuがオープンソースしたGLM-4.6Vシリーズ:106BのネイティブなFunction Callをサポートし、軽量版の9Bは無料で商用利用可能
智譜がマルチモーダル大規模モデルGLM-4.6Vシリーズをオープンソース化。128kトークンのコンテキストウィンドウを実現し、視覚理解精度は同規模で最高水準。初のネイティブFunction Call統合により、視覚認識から実行可能なアクションまで一貫した処理が可能に。API価格を大幅値下げ、軽量版は完全無料でGLM Coding Planに統済。....
Dec 9, 2025
199.6k
マイクロソフトがリアルタイム音声モデルVibeVoice-Realtime-0.5Bをオープンソース化 300ミリ秒でリアルタイム発声 90分の長音声も問題なし!
マイクロソフトがリアルタイム音声モデルVibeVoice-Realtime-0.5Bをオープンソース化しました。非常に低遅延で、実に人間のような音声表現を備えています。テキスト入力から音声出力にかかる平均時間は300ミリ秒で、従来のTTSモデルよりも1〜3秒と比べて大幅に短く、ほぼゼロ遅延のリアルタイム音声合成を実現しています。
Dec 5, 2025
358.9k
vLLM-Omniリリース:テキスト、画像、音声、動画を処理できます
vLLM-Omniは、テキスト、画像、音声、動画など多様な入出力をサポートする推論フレームワーク。多モーダル推論を簡素化し、次世代全モーダルモデルを強力に支援します。....
Dec 2, 2025
173.4k
