世界中のコンピュータビジョンおよび人工知能分野の基盤として、オープンソースの視覚ライブラリ OpenCV は画期的な重要なアップグレードを迎えた。今週、OpenCV チームは新たなOpenCV5を正式に公開し、20年以上の技術的蓄積を継承しながら、全体のアーキテクチャを完全に現代化した。

image.png

20年以上にわたり、OpenCV はロボティクス技術、埋め込みビジョン、産業検出、医療画像、AR/VR などの無数のシステムの基盤となる存在である。現在、このプロジェクトは GitHub 上で8万6千以上のスターを獲得し、毎日全世界で100万回以上インストールされている。今回のOpenCV5の登場は、この古いオープンソースライブラリが大規模モデル時代に全面的に適応するための核心的な使命を果たすものである。

すべてのアップグレードの中でも最も注目されるのは、次の世代の DNN(ディープニューラルネットワーク)エンジンである。新しいエンジンはグラフベースの先進的なアーキテクチャを採用しており、オペレーターの統合技術を完全にサポートし、ONNXへのサポートを全面強化し、オペレーターのカバレッジ率を4.x時代の23%未満から80%以上に急激に増加させた。さらに重要なのは、新アーキテクチャがトランスフォーマーモデル、大規模言語モデル(LLM)、ビジュアル言語モデル(VLM)をネイティブにサポートしていることで、これにより開発者は今後、エッジ側でAIの大規模モデルをより軽量にスケジューリングできるようになる。

image.png

OpenCV5は、高強度のエッジ側AI推論に対応するために、データ型と下層の最適化においても大幅な再構築を行った。新バージョンは0D/1Dテンソルを規格化し、FP16やBF16などの低精度データ型をネイティブにサポートし、モデルの精度を保ちながらメモリの圧力を大幅に軽減した。また、新版ではハードウェアアクセラレーション層を整理し、チップやハードウェアサプライヤーが最適化された独自のコアを直接挿入できるようにし、過去の複雑な条件付きコンパイルコードに終わりを告げた。

下層の計算能力の飛躍的な向上に加え、開発者のエンジニアリング体験も全面的に考慮された。OpenCV5は、より簡潔な現代的な Python 言語バインディングを導入し、従来の経験に基づいてパラメータの順序を推測していたものを、名前付きパラメータで置き換えることを可能にした。同時に、チームは従来の C API を完全に廃止し、コアコードベースをよりコンパクトにし、構築方法もより精算にした。

image.png

3Dビジョンと空間計算分野においても、新バージョンはChArUcoマーカー、多カメラキャリブレーション、および強化された視覚化機能を搭載している。さらに、新たに設計され、ナビゲーションと読みやすさが向上した現代的なドキュメンテーションと併せ、OpenCV5の登場は、世界中のビジョンアルゴリズムエンジニアと大規模モデル開発者にとって、より軽快で未来志向の新しい技術的なブリッジを築くこととなった。