記事本文

グーグル、コンパクトなPaLI-3ビジョン言語モデルを発表、SOTA性能を実現

公開AI二ュ-ス

時間 :Oct 27, 2023

読む :1分

PaLI-3: 小規模ビジョン言語モデルのSOTA達成

グーグルは、PaLI-3と呼ばれる小型のビジョン言語モデルを発表し、最先端（SOTA）レベルのパフォーマンスを達成しました。

対照学習による事前学習方法を採用することで、視覚とテキスト（VIT）モデルの可能性を深く探求し、多言語モーダル検索においてSOTAレベルに到達しました。

PaLI-3は自然言語理解と画像認識を融合し、AIイノベーションの重要な推進力となっています。SigLIPに基づく対照学習による事前学習方法は、多言語クロスモーダル検索の新時代を切り開きました。

まだ完全にオープンソース化されていませんが、多言語と英語のSigLIPモデルを提供することで、研究者たちに試す機会を提供しています。

OpenAIと対立：グーグルのGemini 2.5のリアルタイム音声性能が首位を記録。関数呼び出しの正確度は71.5%

GoogleがGemini2.5Flash音声モデルをアップグレードし、AIによる人間らしいリアルタイム対話を実現。音声の抑揚・感情・間を直接処理でき、文字変換不要で自然な会話が可能に。....

Dec 18, 2025

143.3k

Google がパーソナライズされた AI アシスタントをリリース、CC で朝の業務を簡単に管理

Googleが実験的AIアシスタント「CC」を発表。メールやカレンダーを自動整理し、朝の情報処理を簡素化。個人向け「デイリーブリーフ」を生成し、情報過多を防ぎ、効率的な一日のスタートを支援します。....

Dec 17, 2025

134.0k

AI画像の顔変換の悪夢を終わらせる：OpenAIがGPT Image1.5をリリース、正確な編集と視覚的一貫性を強調

OpenAIはGPT Image1.5を発表し、Google AIとの競争に対応。指示の遵守、編集制御、生成速度が大幅に向上し、最大4倍の高速化を実現。ChatGPT及びAPIユーザーに公開。....

Dec 17, 2025

145.1k

グーグル Gemini に新機能 NotebookLM を追加！チャットで直接ノートを添付！

GoogleはAIツールNotebookLMをGeminiプラットフォームに統合し、ユーザーがチャット時にノートをコンテキストとして利用できるようにしました。現在小規模テスト中で、将来的に広く展開される可能性があります。NotebookLMはノート管理を効率化し、Gemini内でノートブックを添付してAIに追加情報を提供できます。....

Dec 15, 2025

188.3k

Google AIの試着機能が大幅アップデート: 1枚の写真で仮装体験

Google AIの試着機能がアップデートされ、ユーザーはただのスナップショットで全身のデジタルモデルを作成して仮装体験ができ、使用のハードルを大きく下げる。システムはユーザーが選択したサイズに基づいて複数の試着画像を作成でき、デフォルトに設定することも可能である。

Dec 12, 2025

145.2k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク