最近、アップル社の研究チームは香港大学と共同で、「少ないガウス関数、多くのテクスチャ:4K フィードフォワードテクスチャースプラッティング」というタイトルの最新研究成果を発表しました。この技術では、LGTMという新たな技術フレームワークを導入し、高解像度での計算ボトルネックを解決するもので、Apple Vision Proなどの高画素ディスプレイデバイスのグラフィックレンダリングに新たな道を開きました。

技術革新:幾何と解像度の「分離」

現在の主流である前馈型3Dガウシアンスプレッティング技術は、2D画像を3Dシーンに迅速に変換できるものの、レンダリング解像度が上がると計算量が二次関数的に増加し、4Kレベルのリアルタイムレンダリングは困難になっています。

LGTMフレームワークの核心的なイノベーションは、幾何複雑性とレンダリング解像度を分離

  1. 幾何学学習:モデルはまず低解像度画像からシーンの基本構造を学び、高解像度の実際の画像(GT)と比較して、2K/4K下での幾何骨格が隙間や欠陥なく統合されることを確認します。

  2. テクスチャの重ね合わせ:専用の外観ネットワークを導入し、高解像度画像内の細かいディテールをテクスチャとして抽出し、単純な幾何形状に重ねます。

QQ20260403-100737.jpg

Apple Vision Proへの支援

Apple Vision Proの両眼ディスプレイは約2300万ピクセルを持ち、片眼の解像度は4Kを超えています。従来のSPLATなどの前馈モデルでは、このような高密度のピクセル処理において性能が制限されがちです。しかし、LGTMは既存システム(NoPoSplat、DepthSplatなど)をアップグレードでき、装置が低い計算負荷で動作しながら、より明確なテクスチャ、鋭いテキスト、そして現実に近い没入感のある環境を生成できます。

プロジェクトデモページ