4月16日、アリババ・リンボットテクノロジーは、ストリーミング3次元再構築モデル「LingBot-Map」のオープンソース化を正式に発表しました。このモデルは、単なる通常のRGBカメラを用いて動画収集中にリアルタイムでカメラのポジションを推定し、シーンの3次元構造を再構築するという画期的な技術を実現しています。この進展により、ロボットナビゲーション、自律走行、ARハードウェアなど、即時の空間認識が必要なアプリケーションにおいて、効率的で安定し、連続的なオンラインマッピング能力が提供されます。

4aca21381ed84f28da2527af904d68b8.jpg

技術的に見ると、LingBot-Map はストリーミング処理アーキテクチャを使用しており、従来の方法では完全なシーケンスを事前に収集してから一括処理するという制限を打ち破り、画像を受信しながら位置と構造をリアルタイムで出力するインタラクティブな処理を実現しています。国際的な主要な評価において、このモデルは優れたパフォーマンスを示しています。特に難しいオックスフォード・スパイアズデータセットにおいて、その軌跡誤差は以前の最良のストリーミング手法の3分の1にとどまり、一部のオフライン処理アルゴリズムよりも優れています。性能指標によると、LingBot-Map は約20FPSのリアルタイム推論をサポートし、数万フレームにも及ぶ長時間の動画においても精度がほとんど低下しないことを示しています。これにより、高精度、高速度、そして長期的な安定性を兼ね備えています。

今回のLingBot-Mapの公開は、アリババ・リンボットが深度推定(Depth)、大規模言語アクションモデル(VLA)、世界モデル(World)などのシリーズ成果を発表した後のまた一つの重要な動きです。リアルタイムの空間理解というコアな環を補完することで、アリババ・リンボットはその身体知能「ベース」の完全性をさらに強化しました。このモデルのオープンソース化は、高精度の3次元認識のハードウェアの障壁を下げることに加え、身体知能デバイスが複雑で動的な環境で認識と意思決定を進化させるスピードを加速させます。