グーグルGemini2.5が画像処理を革新:オブジェクトの認識にとどまらず、抽象的な概念と関係も理解

AIbase基地

AIニュースで公開 · 1 分読む · Jul 23, 2025

グーグルは最近、Gemini2.5AIモデルに革新的な機能「対話型画像セグメンテーション」をリリースしました。この機能により、ユーザーは自然言語の指示を通じて画像の内容を直接分析し、強調表示することができるようになります。この技術は従来の画像セグメンテーションを越え、Geminiがより複雑で意味のある指示を理解し、応答できる能力を備えています。

伝統を越えて、抽象的および関係性を理解

従来の画像セグメンテーションは、「犬」「自動車」「椅子」などの固定されたカテゴリの物体を認識することに限られていました。しかし現在では、Geminiは画像の特定の部分に対してより複雑な言語を理解し、適用することができます。これは以下のような処理が可能になります: 関係クエリ: 例として「傘を差している人」。論理に基づく指示: 例として「座っていないすべての人」。抽象的概念: 「雑物」や「損傷」など、明確な視覚的な輪郭がない概念も識別できます。

また、組み込まれたテキスト認識機能により、画面内のテキストを読み取る必要がある画像要素を識別することができ、例えば展示ケースの中にある「カシューナッツの飴」などが該当します。この機能は多言語の指示をサポートしており、必要に応じてフランス語などの他の言語のオブジェクトラベルを提供できます。

幅広い応用:デザインから安全まで、保険業界にも

グーグルによると、この技術はさまざまな分野で実用的な価値があります。画像編集:デザイナーはマウスや選択ツールを使わずに、例えば「建物の影を選択」といった口頭指示で正確に必要な領域を選べます。職場の安全:Geminiは写真や動画をスキャンし、「建設現場でヘルメットを着けていないすべての人」などの違反行為を自動的に識別できます。保険業界:請求担当者は「嵐による損害を受けたすべての家を強調表示」といった命令を出すことで、航空写真の中で被害を受けた建物を自動的にマークし、手作業でのチェック時間を大幅に削減できます。

開発者向け:APIアクセスと最適化のアドバイス

この強力な機能には特別な独立モデルは不要です。開発者はGemini APIを通じて直接「対話型画像セグメンテーション」機能にアクセスでき、すべてのリクエストはこの機能を持つGeminiモデルによって直接処理されます。

結果はJSON形式で返され、選択された画像領域の座標（box_2d）、ピクセルマスク（mask）、説明的なラベル（label）を含んでおり、後の開発に便利です。

最適な効果を得るために、グーグルはgemini-2.5-flashモデルを使用することを推奨しており、thinkingBudgetパラメータをゼロに設定して即時の応答をトリガーすることを提案しています。開発者はGoogle AI StudioまたはPython Colabで初期テストを行うことができます。

クーバン：人工知能は5年以内に企業の生存に必要なスキルとなる

米国のテクノロジー富豪マーク・クーバンは、AIが5年以内に職場で不可欠なスキルになると予測している。電子メールやExcelのように、普通に使えるものになるだろうと述べた。AIをうまく活用するか否かが企業の競争力に大きく影響すると指摘した。今後、個人がAIを使ってチームレベルの作業ができるようになり、起業のハードルが大幅に低下すると語った。クーバンはAIを優れたインターンとして見なし、出力された答えを慎重に検証する必要があると提案している。AIはビジネスの倍増器であり、エンタープライザーは上手に使うべきだが、コントロールされるべきではないと強調した。迅速な意思決定が競争優位を維持するために重要である。AIは起業に必要な資金の壁を打破し、今後の10年間の働き方を変えるだろう。

アップルがiOS 26 Beta 4をリリースし、AIニュース要約機能を搭載

アップルはiOS 26 Beta 4の開発者テスト版をリリースし、ライクガラスインターフェースの微調整や、AIニュース要約機能の復帰などに更新を加えました。このバージョンでは、起動画面の追加、Siriによるニュース要約設定の警告ヒントが新たに追加され、カメラアプリの最適化も行われています。以前はBBCからの苦情により停止されていたAI要約機能が再び提供されるようになりましたが、正確性に関する免責事項が追加されました。また、ダイナミック壁紙とCarPlay用の壁紙オプションも更新され、Beta3での一部インターフェースの調整が修正されています。アップルは同時にiPadOSおよびmacOSにも同様のアップデートを配信しています。

米国の職場現象：AIに不安を感じる従業員の6分の1がAIを使用していると偽装

米国の職場におけるAI使用に関する調査では、16%の従業員が上司に気に入られるためにAIを使用していると偽装していることが明らかになりました。これは広く存在するAIへの不安を示しています。75%の雇主が従業員にAIを使用することを期待していますが、20%を超える従業員は自信がないため不安を感じています。3分の1の従業員は、AIを学ぶ時間が従来の仕事と同等であると考えており、AIの出力を厳密に検証していない問題も存在します。48%の従業員はAIを使用していることを隠しており、能力を疑われることを懸念しています。専門家は、従業員が新しい技術に積極的に学び、上司とのコミュニケーションを通じて使用の期待値を明確にするよう提案しています。AIは職場を変革しており、従業員は不安を克服して適応する必要があります。

OpenAIとオラクルが年間300億ドルのデータセンター事業契約を締結

OpenAIはオラクルと年間300億ドルのデータセンター事業契約を締結し、4500メガワットの電力容量を含む。これは2つのフーバーダムの発電量に相当する。この取引は両社のスターレーンプロジェクトの一環であり、建設場所はテキサス州アビリンである。オラクルは過去2年間でデータセンターへの支出が約500億ドルに達し、OpenAIだけでなく既存顧客にもサービスを提供している。注目すべきは、OpenAIの年収100億ドルがこの契約額の1/3に過ぎない点である。この提携によりオラクルの株価は新高を更新し、創設者のエリソンは一時的に世界の富豪ランキングに上がった。

OpenAIがOracleと30億ドルのデータセンター契約を締結

OpenAIとOracleは年間300億ドルのクラウド契約を締結。4.5GWのデータセンター建設を含む「Stargate」プロジェクトの一環。Oracle株価は最高値更新、創業者は世界2位の富豪に。OpenAI収益は100億ドル、契約額はその3倍。Oracleは2年間で500億ドル投資予定だが、エネルギーと資金面で課題あり。....

かつてのパートナーが敵対関係に。マイクロソフトAI責任者がグーグルから20人以上の核心社員を引き抜き、業界を震撼させた

マイクロソフトAI戦略担当のスーレーマンがDeepMindから20人以上の核心社員を引き抜いた。その中には、前グーグルGeminiエンジニアリングリーダーのスブラマニアも含まれている。この動きによりマイクロソフトのAI戦略は加速している。この人的な争奪戦により業界全体の給与水準が上昇し、OpenAICEOは高額報酬での人材獲得が利益主義の風潮を助長していると批判した。グーグルのデータによるとChatGPTのユーザー数は自社のGeminiを上回っている。双方は研究者を巡る競争が白熱化している。注目すべきは、テクノロジー大手がAIエキスパートを高額で獲得する一方で、一般社員の大規模な解雇を行っている点だ。マイクロソフト