テスラの元自律運転責任者で、OpenAIの共同創設者でもあるアンドレイ・カーパティ氏は最近、オープンソースのDeepSeek-OCR論文についてツイートでコメントし、興味深い見解を示した。従来のテキスト入力と比較して、画像が大規模言語モデル(LLM)の入力形式としてより効率的である可能性があるという点だ。この見解は、AI研究コミュニティにおいてモデルの入力方式の将来の進化方向に関する議論を引き起こした。
カーパティ氏は、現在広く使われているテキストトークン入力方式が無駄で非効率的であり、将来的には画像入力に焦点を当てるべきだと述べた。彼はいくつかの観点から、画像入力がテキスト入力よりも潜在的な利点があることを説明した。
まず、情報圧縮率の向上である。テキストを画像にレンダリングすると、より少ないビジュアルトークンでより多くの情報を伝えることができる。これは、1つの画像ピッチが複数の文字の情報を含むことができ、従来のテキストトークナイゼーションでは各文字やサブワードごとに個別のトークンが必要になるためである。大規模なコンテキストを処理する際、このような圧縮はモデルの効率を著しく向上させ、計算コストを削減する可能性がある。
次に、情報表現の豊かさである。画像入力は、太字、色、フォントサイズ、レイアウトなどの視覚的要素を自然にサポートする。これらのフォーマット情報は、従来の純粋なテキスト入力では失われるか、Markdownなどの追加のマークアップ言語で表される必要がある。後者の方法はトークン消費を増やすため、直接画像を使用することでモデルはドキュメントの視覚構造や強調ポイントをより自然に理解できる。
第三に、注目機構の最適化の余地である。画像入力は双方向の注目機構を使用できるが、従来のテキスト生成タスクでは通常、自己回帰的な因果的注目機構が使われる。双方向の注目機構は、すべてのコンテキスト位置を同時に注目できるため、通常より強い理解能力を提供する。この処理方法は、自己回帰的なテキスト処理のいくつかの固有の制限を回避する。
カーパティ氏は特に、トークナイザー(分詞器)の複雑さを批判した。彼はこれを非エンドツーエンドの歴史的残滓モジュールだと考え、多くの不要な複雑さをもたらしていると述べた。例えば、視覚的には同じ文字でも、異なるUnicodeコードから来た場合、異なるトークンにマッピングされることがあるため、モデルは見た目には同じ入力に対して異なる理解を示すことがある。トークナイザーを排除し、画像を直接処理することで、全体のシステムはより簡潔で統一される。
技術的実装の観点から見ると、カーパティ氏の意見は視覚エンコーダーが相当程度成熟していることに基づいている。Vision Transformerなどのアーキテクチャはすでに画像入力を効率的に処理でき、DeepSeek-OCRなどのモデルは視覚からテキストへの変換を高い正確度で行うことができることを示している。この能力をすべてのテキスト処理タスクに拡張することは、技術的に実現可能である。
しかしカーパティ氏は、不均衡性を指摘した。ユーザーの入力は画像であるかもしれないが、モデルの出力は依然としてテキスト形式でなければならない。なぜなら、本物の画像を生成するのはまだ完全に解決されていない問題だからである。つまり、画像入力を採用しても、モデルのアーキテクチャはテキスト生成をサポートしなければならず、テキスト処理能力を完全に廃止することはできない。
この見解による議論は、さまざまな側面に関わっている。効率の観点から見ると、もし画像入力が情報密度を向上させるとすれば、長文や大規模なコンテキストを処理する際に明らかに利点がある。統一性の観点から見ると、画像入力はドキュメント理解、OCR、マルチモーダル質問応答などのタスクを一つのフレームワークに統合し、モデルアーキテクチャを単純化することができる。
しかし、画像入力にも課題がある。第一に計算コストである。情報密度が高いとはいえ、画像エンコード自体の計算負荷が一部の利益を相殺する可能性がある。第二に編集性である。純粋なテキストは編集や操作が容易だが、画像形式の「テキスト」は後続の処理でその柔軟性を失う。第三にエコシステムの互換性である。既存の大量のテキストデータとツールチェーンは文字/トークンに基づいており、画像入力に完全に移行するには全体のエコシステムを再構築する必要がある。
研究の方向性としては、カーパティ氏の見解は興味深い可能性を示している。視覚モデルの能力が向上するにつれて、従来の「言語モデル」はより一般的な「情報処理モデル」に進化するかもしれない。その中でテキストは情報の一形態であり、唯一の入力形式ではない。この変化は、言語モデルとマルチモーダルモデルの境界を曖昧にするだろう。
DeepSeek-OCR論文がこの議論のきっかけとなったのは、OCRタスクが単なる文字認識からより深いドキュメント理解へと進化したことを示している。OCRモデルがさまざまなフォーマットとレイアウトを持つテキストを正確に理解できれば、すべてのテキストタスクを「視覚的理解」タスクとして捉えることは概念的に妥当である。
カーパティ氏の自虐的な発言、「すぐに画像入力のみをサポートするチャットボットを開発しないように注意しなければならない」という言葉は、このアイデアへの関心を示しながらも、実際の導入の複雑さを示唆している。この激しいアーキテクチャの変更には、さまざまなタスクでの有効性を証明し、上述した実際的な課題を解決するための大量の実験が必要である。
産業応用の観点から見ると、画像入力が最終的に優れていることが証明されても、移行は段階的になるだろう。より現実的な道筋は、視覚的フォーマット情報を保持する必要があるシナリオでは画像入力を、柔軟な編集と組み合わせが必要なシナリオではテキスト入力を使用する混合モードである。この混合戦略により、両方の方法の利点を両立させることができる。
総じて、カーパティ氏の見解は、言語モデルの標準的な入力としてのテキストトークンの固定された仮定を挑戦し、深く掘り下げるべき研究方向を提示している。このビジョンが完全に実現されなくても、モデルの入力表示の最適化に対する新たな視点を提供し、次世代のより効率的で統一されたAIアーキテクチャの出現を促す可能性がある。