世界中の製造業や建設業が深刻な労働力不足に直面する中、ショベルなどの大型機械を自律的に作業させることが業界の焦点となっています。スタートアップ企業Bedrock Roboticsは最近、AWS生成AIイノベーションセンターと協力して、視覚言語モデル(VLMs)を活用し、自動運転システム開発で最も時間がかかる問題である膨大な映像データのラベリングを成功裏に解決しました。

image.png

従来、建設の自動化システムを訓練するには、何百万時間にも及ぶ監視映像を人手でラベリングし、さまざまなバケットやフック、作業タスクを識別する必要がありました。これは非常に高コストであり、効率も極めて低いものでした。AIbaseによると、Amazon Bedrockプラットフォーム上の視覚言語モデルを導入することで、チームは人と会話するように自然言語の指示を使ってAIがビデオ内の複雑な状況を自動的に識別・説明できるようになりました。

この「AIによるAIラベリング」のモデルにより、著しい効率の飛躍が実現されました。報道によると、元々撮影角度が特異で現場の粉塵による干渉があるため、一般的なモデルでは建設用具の認識精度は34%にとどまっていたのですが、パーソナライズされたプロンプトエンジニアリング(Prompt Engineering)による最適化により、精度は70%まで急上昇しました。これは、元々煩雑だった人間による選別作業が、自動化され拡張可能なデータパイプラインに変化したことを意味します。

現在、この技術はBedrock Operator