グーグルDeepMindの新研究TIPSv2：AIが画像を本当に理解できるようにする　ただ一瞬見るだけではない

現在のAIによる画像認識には、隠れた欠点がある。

「この画像には何が写っているか」と尋ねれば、しっかり答えてくれる。しかし、「この画像のパンダの左後ろの足はどこにあるか」と聞かれると、曖昧になる。これは特定のモデルだけの問題ではなく、視覚と言語の大きなモデル分野において長期間存在している一般的な問題である——全体の理解は強いけれど、局所的な位置の理解は弱い。

グーグルDeepMindは最新の論文で、この難問を解決するためのTIPSv2という手法を提案した。

研究チームは調査の中で、直感に反する現象を発見した。細かいセグメンテーションタスクでは、パラメータ数が少ない「生徒モデル」の方が、より大きい「教師モデル」をよく越えることが多い。その理由は、蒸留プロセスによってカバー機構が除去され、モデルが画像全体のすべての詳細を学ばざるを得なくなったためである。これにより「全領域監督」が形成された。この発見からインスピレーションを受けたTIPSv2は、この点に基づいて3つの重要な改善を行った。

第一の改善はiBOT++である。従来の前処理では、画像の中の隠された領域のみ損失を計算していたが、見える領域は「放任」状態であり、局所的な意味がずれやすい。iBOT++では、モデルがすべての見える領域に対して正確な監督を行うことを求め、まるで「クイズゲーム」から「全文精読」へと進化させた。この変更だけで、ゼロサンプルセグメンテーション性能は14.1ポイントも向上した。

第二の改善はHead-only EMAである。従来の自己教師付きトレーニングでは、メモリにほぼ同じ大きさの大規模モデルを2つ保持する必要があり、コストが非常に高かった。TIPSv2は、画像とテキストの対比損失自体が主幹ネットワークを安定して維持できることを発見したため、EMAは最終的なプロジェクションヘッドにのみ作用させ、主幹は複製しなくなった。その結果、トレーニングのパラメータ量は約42%減少し、スピードが速くなり、性能はほとんど損なわれなかった。

第三の改善は多粒度テキストの組み合わせである。トレーニング中にウェブページの簡潔な説明、中程度の詳細な説明、そしてGeminiによって生成された長い説明をランダムに与え、難易度を交互にすることにより、モデルが単純なタスクのために「サボらない」ようにし、同時に詳細が失われないようにしている。

最終的な効果は非常に実りあるものだった。TIPSv2は、9つの主要なタスクおよび20の権威あるデータセットで評価を行い、ゼロサンプルのセマンティックセグメンテーションにおいて業界最高記録を更新し、画像とテキストの検索や分類では、自身よりパラメータ数が56%多い比較モデルを下回った。純粋な視覚タスクでも、すべての上位にランクインした。

現在、TIPSv2のコードとモデルの重みは全面的にオープンソースとなった。医療画像、自動運転、工業検査など、高精度な画像理解が必要なチームにとって、この仕組みは真剣に検討すべきものである。

論文のリンク：https://www.alphaxiv.org/abs/2604.12012

グーグルの「Ask Gemini」機能がGmailに拡張され、メール検索が簡単に！

グーグルは「Ask Gemini in Drive」機能をGmailに拡張したことを発表しました。これにより、膨大なメールから特定の情報を迅速に検索できるようになります。この機能は3月にリリースされ、条件を満たしたGoogle Workspace、AI Pro、Ultraユーザー向けに提供されています。ユーザーは左側でGmailを選択し、「Ask Gemini」ボタンをクリックするだけで利用可能です。

クリエイティブを一瞬で実現！OpenAIが「Sites」機能をリリース。アイデアを直接インタラクティブなウェブサイトに変換

OpenAIは、Codexプラットフォームに「プレビュー版のSites」という機能をリリースし、ビジネスおよび企業版ユーザー向けに公開しています。この機能により、単純なテキストのアイデアやデータ分析レポート、プロジェクト計画を直接機能豊富なアプリケーションやウェブページに変換することが可能となり、従来の開発とデザインプロセスを破壊し、クリエイティブな考えを迅速に実現します。

YouTubeポッドキャストがAIの新機能でビッグテックを打ち負かす！自動再生速度調整機能で遅い話しぶりに特化

YouTubeはPremium会員向けに新しいポッドキャスト機能をリリースし、ストリーミング大手との競争に挑み、SpotifyやAppleポッドキャストのユーザーを惹きつけることを目的としている。主要なアップデートには、パーソナライズされた探索と手を離した操作が含まれ、聴く体験を向上させる。その中で「Ask Music」機能がポッドキャストにも拡張され、ユーザーが無作為な検索から離れ、スマートな推薦を実現する助けとなる。

OpenAI Codexに新しいロック画面動作機能が追加：Macのデスクトッププロキシが自動化の新たな段階へ

OpenAIデスクトッププロキシであるCodexに「ロック画面動作」機能が追加され、マックがロックされているかスクリーンがオフであってもリモートコマンドでローカルアプリを操作できるようになりました。従来のロック解除と画面常時表示を必要とする制限を打ち破りました。開発者がパソコンを監視する必要なく、長時間かつ複雑なエンジニアリングタスクを実行でき、例えば大規模なコードコンパイルやGUIオートメーションテストなどが可能です。

xAIが必殺技を披露：1.5兆パラメータのGrok V9-Mediumの訓練完了、プログラミングAIの分野に注目

世界中のAI演算力競争が高まり、マスカーはxAIの新モデルであるGrok V9-Mediumが訓練を完了したと発表しました。このモデルは1.5兆のパラメータを持ち、現在使用されているGrokのv8-smallバージョンの3倍であり、推論および複雑なタスク処理能力における重要な飛躍を示しています。