阿里巴巴、多モーダル推論モデルQVQ-72Bを発表！視覚・言語能力が向上し、複雑な問題も容易に解決

アリババは最近、QVQ-72Bという新しいマルチモーダル推論モデルを発表しました。このモデルはQwen2-VL-72Bをベースに構築されており、強力な言語能力と視覚能力を融合することで、より複雑な推論と分析タスクを処理できます。これは、アリババが多モーダルAI分野で新たなブレークスルーを達成したことを示しています。

QVQ-72Bは、視覚推論、数学、科学の問題において顕著な性能向上を示しており、特に複数ステップの推論タスクにおいてその能力が際立っています。これは、テキスト情報だけでなく画像情報も理解し、複数ステップの推論を通じて複雑な問題を解決できることを意味し、従来のAIモデルでは実現困難なことです。

このモデルの大きな特徴は、物理の問題においてテキストと視覚情報を組み合わせ、因果関係を推論できる点です。例えば、物理的な状況の画像と関連するテキストの説明から、事象発生の因果関係を推論し、より深いレベルの理解能力を示します。

数学的推論タスク（代数、微積分など）において、QVQ-72Bは段階的な推論によって誤り率を大幅に削減します。これは、このモデルが単純な計算だけでなく、複雑な数学的推論も実行でき、明確な解法手順を提供できることを示しており、複雑な数学問題解決のための新たなツールを提供します。

さらに、QVQ-72Bは技術レポートや複雑なグラフ分析における重要な情報の抽出において、高い精度と効率性を誇ります。複雑な文書やグラフから重要な情報を迅速かつ正確に抽出できるため、研究者やアナリストなどの専門家にとって強力な支援ツールとなります。

画像認識においては、QVQ-72Bは物体の位置、色、空間関係、複雑な状況など、画像内の詳細を正確に認識できます。これは、このモデルがスマート監視や自動運転など、より幅広い場面に適用できることを意味します。

総じて、アリババが発表したQVQ-72Bマルチモーダル推論モデルは、その強力な視覚、言語、推論能力により、複雑な問題解決のための新たな考え方とツールを提供します。その登場は、間違いなく人工知能の様々な分野への応用を促進し、各業界のインテリジェント化アップグレードに新たな原動力をもたらすでしょう。

オンライン試用:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

詳細情報:https://qwenlm.github.io/blog/qvq-72b-preview/

視覚障害者も街並みを見ることができる？グーグルの新しいAIシステムがバリアフリーな仮想探索を可能に。技術で社会に貢献する新たな一歩

グーグルがStreetReaderAIの原型システムをリリースし、視覚障害者や視力が弱いユーザーが自然言語によるインタラクションを通じてグーグルストリートビューを自主的に探索するのを補助しています。このシステムはコンピュータビジョン、地理情報システム、大規模言語モデルを統合し、マルチモーダルAIを駆動するリアルタイムの対話型ストリートビュー体験を実現し、従来の音声読み上げの限界を打ち破り、バリアフリーな都市探検の自由度を向上させます。

阿里巴巴通義千問Qwenオープンソースビジュアル推論モデルQVQ-72B-Preview

Qwenチームは先日、最新開発のマルチモーダル推論モデルQVQのオープンソース化を発表しました。これは、人工知能における画像理解と複雑な問題解決能力において重要な一歩を踏み出したことを意味します。このモデルはQwen2-VL-72Bをベースに構築されており、言語と視覚情報を組み合わせることでAIの推論能力を向上させることを目指しています。MMMU評価において、QVQは70.3の高得点を獲得し、また複数の数学関連ベンチマークテストにおいて、Qwen2-VL-72B-Instructと比較して顕著な性能向上を示しました。

オープンソース多モーダルモデルMolmo、画像内の物体を認識し正確な説明を生成

最近、Molmoというオープンソースの多モーダルAIモデルが業界で大きな注目を集めています。OpenAIのCLIPをビジョン処理エンジンとして使用し、Qwen2-72BをベースとしたこのAIシステムは、その優れた性能と革新的な機能で、従来の商用モデルの覇権に挑戦しています。Molmoの顕著な特徴はその高い性能です。比較的サイズが小さいにもかかわらず、処理能力は10倍規模の競合他社に匹敵します。この小さくても強力な設計思想は、モデルの効率性を高めることに貢献しています。

テンセントが新たな翻訳モデルDRT-o1を発表、文学作品翻訳を革新

グローバル化の進展に伴い、ニューラル機械翻訳（NMT）技術は言語間のコミュニケーションにおいてますます重要な役割を果たしています。現在の翻訳ツールは技術文書や簡単なテキストの処理において優れた性能を発揮していますが、文学作品翻訳においては依然として多くの課題に直面しています。文学作品には比喩や隠喩など、文化的・感情的な意味合いが豊かな表現が多く含まれており、従来の翻訳システムではその深層的な意味を正確に伝えることが難しいことがしばしばあります。この課題を克服するため、テンセント研究チームはDRT-o1という新たな翻訳システムを発表しました。このシステムは

AI創業のベテラン胡雲華氏、智譜AIに入社。「智譜清言」の責任者に就任