空間知能が重要なオープンソースの進展を遂げました。1月27日、アリババグループ傘下企業であるエージェント型知能会社であるリンボー科技は、高精度な空間認識モデル「LingBot-Depth」をオープンソース化することを発表しました。
このモデルは、オビマックスのGemini330シリーズのステレオ3Dカメラから提供されるチップレベルの原始データに基づいており、環境の深度認識と3次元空間理解能力を向上させることに注力しています。ロボットや自動運転車などのスマート端末により正確で信頼性の高い3次元ビジョンを提供し、「3次元世界を正確に認識する」という業界の主要な課題において重要な突破を達成しました。これは、アリババリンボー科技が2025年の外灘大会後に初めて登場してから半年ぶりに、エージェント型知能技術基盤分野で発表した重要な成果です。
NYUv2やETH3Dなどの権威あるベンチマークテストにおいて、LingBot-Depthは世代を超えた優位性を示しています。業界の主流モデルであるPromptDAとPriorDAと比較すると、室内シーンにおける相対誤差(REL)は70%以上低下し、挑戦的なスパースSfMタスクではRMSE誤差が約47%低下し、新たな業界の精度基準を確立しました。

(図説:最も挑戦的なスパース深度補完タスクにおいて、LingBot-Depthの性能は現在の多数の主要モデルよりも全体的に優れています。図中の数値が低いほど性能が良いことを示しています。)
家庭や工業環境では、グラスや鏡、ステンレス製機器などの透明物や反射物が多く存在しますが、これらは機械の空間認識の難点となっています。従来の深度カメラは光学的物理特性の制限により、透明または高反射素材に対して有効なエコーを受け取ることができず、深度画像にデータの欠落やノイズが生じることがあります。
このような業界共通の課題に対処するために、アリババリンボー科技は「マスク深度モデリング(Masked Depth Modeling、MDM)」技術を開発し、オビマックスのGemini330シリーズのステレオ3Dカメラを活用してRGB-Depthデータの収集と効果検証を行いました。深度データが欠落または異常な場合、LingBot-Depthモデルはカラーピクセル(RGB)のテクスチャ、輪郭および環境の文脈情報を統合し、欠落領域を推論・補完して、完全で密な、エッジがより明確な3次元深度画像を出力します。特に注目すべきは、LingBot-Depthモデルがオビマックスの深度ビジョンラボで専門的な認証を取得しており、精度、安定性および複雑なシナリオへの適応性において業界のリードレベルに達していることです。
実験では、オビマックスGemini330シリーズはLingBot-Depthを適用した後、透明なガラス、高反射の鏡面、強い逆光および複雑な曲面など、非常に困難な光学シナリオでも、深度画像が滑らかで完全であり、物体のエッジが非常に鋭く、業界をリードする3Dビジョン企業であるStereolabsが提供するZED Stereo Depth深度カメラの効果に比べて顕著に優れています。これは、センサーのハードウェアを交換せずに、LingBot-Depthが消費者向け深度カメラが困難な物体を処理する効果を大幅に向上させることができるということを意味しています。

(図説:[上図] LingBot-Depthを搭載したオビマックスGemini330シリーズは、透明・反射状況下での深度画像の完全性とエッジの明確さが明らかに改善され、[下図]その効果は業界をリードするZED深度カメラを上回っています。)
LingBot-Depthの優れた性能は膨大な現実的なシナリオデータに由来しています。リンボー科技は約1,000万件の原始サンプルを収集し、訓練に使用するための200万組の高価値な深度ペアデータを抽出しました。これにより、極端な環境下でのモデルの汎化能力が支えられています。このコアなデータ資産(2Mのリアルワールド深度データと1Mのシミュレーションデータ)は近日中にオープンソース化され、コミュニティが複雑なシナリオの空間認識問題を迅速に解決する手助けとなるでしょう。
関係者によると、アリババリンボー科技はオビマックスと協力に関する意向を表明しています。オビマックスはLingBot-Depthの能力をもとに新世代の深度カメラを発売する予定です。
