8月25日、阿里ババクラウドは、大規模視覚言語モデル「Qwen-VL」を発表しました。これは、中国語と英語など複数の言語に対応し、テキストと画像を統合的に理解できるモデルです。Qwen-VLは、阿里ババクラウドが以前オープンソース化した汎用言語モデル「Qwen-7B」をベースとしており、他の視覚言語モデルと比較して、視覚的な位置特定や画像内の中国語の理解などの機能が追加されています。Qwen-VLはGitHubで3400以上のスターを獲得し、ダウンロード数は40万回を超えています。視覚言語モデルは、汎用AIの重要な進化方向と見なされています。業界では、多様な入力に対応できるモデルは、世界に対する理解能力を高め、利用シーンを拡大すると考えられています。阿里ババクラウドは、Qwen-VLをオープンソース化することで、汎用AI技術の進歩をさらに促進します。
関連推奨
Quest Mobile、AIアプリの週間アクティブユーザーランキングを発表:バイタ系が3つ、アントグループが2つランクイン
Quest Mobileの報告によると、2025年後半のAIアプリエコシステムにおいて、ドウバオ、DeepSeek、ヤオビン、アントアフーが週間アクティブユーザー上位4位にランクインし、アリババ・千問は第5位、アントリングウェイは上位10位に入った。トップ10リストでは汎用AIが6枠を占め、特化型AIが4枠を占め、汎用と専門的なシナリオが両方で進展している構図となっている。
華為2012ラボが基礎大モデル部を設立、AIの下層技術の構築を加速する
华为は「基礎大モデル部門」を設立し、AI基盤技術の強化と汎用AI・基礎アルゴリズムへの投資を拡大。将来の技術競争に対応するため、アラブ首長国連邦のチームは世界的にAI人材を募集し、特に優れた学術的背景と革新的研究実績を持つ若手研究者を求めている。....
加速度!霊光がリリース6日で200万ダウンロードを突破 次の100万はわずか2日で達成
アリババグループが提供する汎用AIアシスタント「霊光」は、リリース後すぐに強力なパフォーマンスを発揮し、6日間で総ダウンロード数が200万を突破しました。そのうち次の100万ダウンロードにはわずか2日しかかかりませんでした。このアプリはグローバルなAI製品の中で最も速い成長記録を樹立しています。現在、中国のApp Store無料アプリ総合ランクでは第6位を維持しており、ツールカテゴリーランクでは常に首位を走っています。
Google、新たなビジョン言語モデル PaliGemma 2 Mix を発表、開発者を支援する多機能モデル
先日、Googleは、PaliGemma2Mix と名付けられた、新たなビジョン言語モデル(VLM)を発表しました。このモデルは画像処理と自然言語処理の能力を融合し、視覚情報とテキスト入力の両方を理解し、必要に応じて対応する出力を生成することができます。これは、人工知能技術におけるマルチタスク処理の更なる進歩を示しています。PaliGemma2Mix は非常に強力な機能を備えており、画像記述、光学文字認識(OCR)などを統合しています。
Google DeepMind、1000億規模のビジョン言語データセットWebLI-100Bを発表
Google DeepMindチームは、1000億個の画像テキストペアを含む巨大データセットWebLI-100Bを発表しました。これは、人工知能のビジョン言語モデルの文化的にも言語的にも多様な能力を向上させることを目的としています。このデータセットにより、研究者たちは、異なる文化や言語環境でのビジョン言語モデルのパフォーマンスを改善し、サブグループ間の性能差を縮小することで、AIの包括性を高めることを期待しています。ビジョン言語モデル(VLMs)は、学習のために大規模なデータセットに依存しており、…
