グーグルは、NotebookLMに画像データソースを追加したことを発表しました。ユーザーが黒板のノートや教科書のスキャンページ、街中の写真などの画像をアップロードすると、システムが自動的にOCRと意味解析を行い、自然言語で画像内の内容を直接検索できます。この機能は全プラットフォームで無料で提供され、グーグルは今後の数週間内でローカル処理オプションを追加する予定で、機密情報のクラウドへのアップロードを減らすことが目的です。

NotebookLMの新バージョンはマルチモーダルモデルを基盤としており、手書きと印刷された領域を区別し、テーブル構造を抽出し、既存のテキスト、音声、ビデオノートと自動的に関連付けます。グーグルはデモンストレーションで使用例を紹介しています。例えば、授業の黒板を撮影して「左下の式はどのように導出されるか」と尋ねると、システムは式を即座に特定し、ステップごとの説明を生成します。教科書の127ページのテーブルをスキャンすると、セル内の数値を直接照会できます。街中のカフェのメニューアップロードにより、ラテの価格を抽出できます。
グーグルによると、この機能がリリースされてから48時間以内に、教育アカウントからアップロードされた画像量は50万ページを超え、前月比で340%増加しました。会社は来年、NotebookLMにARグラスのリアルタイム撮影インターフェースを統合する計画であり、「見えるものを即座に質問できる」ようにしたいと考えています。現在の画像処理は従来の無料枠を使用しており、有料の高速化チャネルの導入については明らかにしていません。
