智元ロボティクスは、汎用の身体基盤大規模モデル「GO-1(Genie Operator-1)」をオープンソース化することを発表しました。これは、Vision-Language-Latent-Action (ViLLA) アーキテクチャを採用した世界初の身体知能モデルです。今回のオープンソース化により、身体知能の技術的ハードルを下げ、より多くの開発者がこの先端技術の応用と発展に参加できるようにする狙いがあります。このモデルの公開は、今年1月にオープンソース化された「AgiBot World」身体知能百万台実機データセットに続いて行われました。

GO-1モデルの核となるのはViLLAアーキテクチャです。この技術革新により、ロボットは人間の意図をよりよく理解し、より正確な動作を実行できるようになりました。従来のVision-Language-Action(VLA)アーキテクチャとは異なり、ViLLAは隠れられたアクショントークンを導入することで、画像やテキストの入力とロボットの実際の動作を効果的に接続しています。このアーキテクチャは3層から構成されています。第一層はVLMマルチモーダル理解層で、InternVL-2Bをもとに構築されており、視覚、力覚、言語などの情報処理能力を持っています。第二層はLatent Planner隠れプランナーで、複雑なタスクの高レベルな理解が可能です。第三層はAction Expert動作エキスパートで、拡散モデルによって連続的な高精度の動作シーケンスを生成し、ロボットが複雑な操作タスクを実行できるようにします。
また、智元ロボティクスは「Genie Studio」開発プラットフォームもリリースしました。このプラットフォームは、データ収集、モデルトレーニング、シミュレーション評価など、開発者にとって包括的なソリューションを提供します。このプラットフォームにはGO-1モデルが統合されており、動画トレーニング方案と統一トレーニングフレームワークも提供され、開発効率を大幅に向上させ、身体知能技術の迅速な実装を支援します。
GO-1モデルはAgiBot G1ロボットのデータに基づいて事前トレーニングされていますが、さまざまなロボットプラットフォームでの検証テストを通じて、優れた移植性を示しています。このモデルは、多数の主要なシミュレーションプラットフォームで優れたパフォーマンスを発揮しており、異なるロボットに適応できる能力を示しています。
智元ロボティクスは、広範な開発者にGitHubリポジトリからGO-1モデルをダウンロードして、身体知能の開発旅立ちを開始することを奨励しています。AI研究者であっても初心者であっても、GO-1は彼らに強力な技術的サポートを提供します。
GitHub:
https://github.com/OpenDriveLab/AgiBot-World
Huggingface:
https://huggingface.co/agibot-world/GO-1
ポイント:
🌟 世界初のオープンソース化されたViLLAアーキテクチャモデル「GO-1」が正式リリースされました。
🔧 Genie Studio開発プラットフォームは、開発者にフルプロセスのソリューションを提供し、支援します。
🤖 GO-1モデルはさまざまなプラットフォームでのテストを通じて、良好な移植性を示しています。
