アリババは最近、QVQ-72Bという新しいマルチモーダル推論モデルを発表しました。このモデルはQwen2-VL-72Bをベースに構築されており、強力な言語能力と視覚能力を融合することで、より複雑な推論と分析タスクを処理できます。これは、アリババが多モーダルAI分野で新たなブレークスルーを達成したことを示しています。



アリババは最近、QVQ-72Bという新しいマルチモーダル推論モデルを発表しました。このモデルはQwen2-VL-72Bをベースに構築されており、強力な言語能力と視覚能力を融合することで、より複雑な推論と分析タスクを処理できます。これは、アリババが多モーダルAI分野で新たなブレークスルーを達成したことを示しています。


グーグルがStreetReaderAIの原型システムをリリースし、視覚障害者や視力が弱いユーザーが自然言語によるインタラクションを通じてグーグルストリートビューを自主的に探索するのを補助しています。このシステムはコンピュータビジョン、地理情報システム、大規模言語モデルを統合し、マルチモーダルAIを駆動するリアルタイムの対話型ストリートビュー体験を実現し、従来の音声読み上げの限界を打ち破り、バリアフリーな都市探検の自由度を向上させます。
Qwenチームは先日、最新開発のマルチモーダル推論モデルQVQのオープンソース化を発表しました。これは、人工知能における画像理解と複雑な問題解決能力において重要な一歩を踏み出したことを意味します。このモデルはQwen2-VL-72Bをベースに構築されており、言語と視覚情報を組み合わせることでAIの推論能力を向上させることを目指しています。MMMU評価において、QVQは70.3の高得点を獲得し、また複数の数学関連ベンチマークテストにおいて、Qwen2-VL-72B-Instructと比較して顕著な性能向上を示しました。
最近、Molmoというオープンソースの多モーダルAIモデルが業界で大きな注目を集めています。OpenAIのCLIPをビジョン処理エンジンとして使用し、Qwen2-72BをベースとしたこのAIシステムは、その優れた性能と革新的な機能で、従来の商用モデルの覇権に挑戦しています。Molmoの顕著な特徴はその高い性能です。比較的サイズが小さいにもかかわらず、処理能力は10倍規模の競合他社に匹敵します。この小さくても強力な設計思想は、モデルの効率性を高めることに貢献しています。
グローバル化の進展に伴い、ニューラル機械翻訳(NMT)技術は言語間のコミュニケーションにおいてますます重要な役割を果たしています。現在の翻訳ツールは技術文書や簡単なテキストの処理において優れた性能を発揮していますが、文学作品翻訳においては依然として多くの課題に直面しています。文学作品には比喩や隠喩など、文化的・感情的な意味合いが豊かな表現が多く含まれており、従来の翻訳システムではその深層的な意味を正確に伝えることが難しいことがしばしばあります。この課題を克服するため、テンセント研究チームはDRT-o1という新たな翻訳システムを発表しました。このシステムは
インテリジェント・エマージェンスの報道によると、先日、元マイクロソフトアジア研究院研究員、アリババ達摩院シニアテクニカルエキスパート、アリペイ中国チーフデータオフィサーの胡雲華氏が、大規模言語モデルのユニコーン企業である智譜AIに入社し、Cエンドアプリケーション「智譜清言」の責任者に就任しました。胡氏の入社は、智譜AIのプロダクト責任者において新たな章を刻む出来事となります。胡氏は2003年にマイクロソフトアジア研究院でインターンシップを行い、2007年に正式に研究員となりました。2012年にはアリババ達摩院に入社し、花名は「呉鉤」でした。アリババでの2年間…