Grok大更新！視覺能力、多語言音頻處理與實時搜索功能震撼上線

由xAI打造的生成式人工智能聊天機器人Grok迎來了一次里程碑式的更新，其功能全面升級，不僅新增了視覺處理能力，還實現了多語言音頻處理以及語音模式下的實時搜索功能。這一更新標誌着Grok在多模態AI領域的重大突破，爲用戶提供了更智能、更便捷的交互體驗。以下，AIbase將爲您詳細解析此次更新的亮點與意義。

視覺能力突破

Grok的視覺處理能力是此次更新的核心亮點之一。儘管早在2024年4月，xAI曾宣佈Grok-1.5Vision（Grok-1.5V）具備處理文檔、圖表、截圖和照片等視覺信息的能力，但該版本從未向公衆開放。如今，Grok的視覺功能正式上線，用戶可以通過上傳圖片，讓Grok分析複雜視覺內容，例如解讀數據圖表、識別物體或將視覺信息轉化爲可執行代碼。這不僅提升了Grok在實際場景中的應用價值，還使其在空間理解和視覺推理任務中表現出色，特別是在RealWorldQA基準測試中展現了領先優勢。

值得一提的是，Grok的視覺能力與其實時數據獲取功能結合，能夠進一步增強其在新聞分析、社交媒體內容解讀等場景中的表現。例如，用戶可以上傳一張新聞圖片，Grok即可結合X平臺上的實時信息，提供背景分析與事件解讀。

多語言音頻處理:145+種語言的語音交互新體驗

Grok的多語言音頻處理功能同樣令人矚目。通過集成“VoiceWave”擴展，Grok現支持145種以上語言的實時語音交互，包括英語、西班牙語、法語、日語、漢語、土耳其語和印地語等，覆蓋全球主要語種。這一功能不僅實現了自然流暢的語音對話，還支持語音轉文本、語音重放以及同步文本高亮顯示，極大提升了用戶體驗。

對於需要跨語言溝通的用戶而言，Grok的多語言音頻處理無疑是一大福音。無論是學習新語言、處理多語言客戶服務，還是進行國際化的內容創作，Grok都能以原生髮音和可調節的語速與語調，提供個性化語音響應。據悉，該功能已通過Chrome Web Store的擴展程序實現，用戶可通過簡單的語音指令激活並自定義交互設置。

語音模式實時搜索:DeepSearch賦能即時信息獲取

Grok在語音模式下新增的實時搜索功能，進一步鞏固了其作爲“真相探尋者”的定位。依託DeepSearch技術，Grok能夠通過語音指令即時從網絡和X平臺獲取最新信息，生成準確、詳盡的回答。相比傳統的文本輸入，語音搜索讓用戶能夠更快速地獲取實時趨勢、新聞動態或熱點話題的洞察。

例如，當用戶詢問“最近的科技新聞”時，Grok不僅能以語音形式快速回應，還能引用X平臺上的最新帖子和網絡資源，確保信息的時效性與可信度。此外，DeepSearch的透明推理過程允許用戶查看Grok的邏輯推導步驟和來源文檔，進一步提升了信息的可信度。

功能背後的技術支撐:Colossus超算與強化學習

此次更新的成功離不開xAI在技術層面的持續投入。Grok3的訓練依託Colossus超級計算機，配備20萬個NVIDIA H100GPU，計算能力是前代模型的10倍。這使得Grok在處理複雜任務時速度更快、準確性更高，特別是在需要多模態融合的場景中表現出色。

此外，Grok3通過大規模強化學習（RL）優化了其推理能力，能夠在幾秒到幾分鐘內完成錯誤糾正、方案探索和答案生成。這種“像人類一樣思考”的能力，讓Grok在數學、科學和編碼等領域的基準測試中，超越了包括GPT-4o、Gemini1.5和Claude3.5Sonnet在內的多個競品模型。

Grok大更新！視覺能力、多語言音頻處理與實時搜索功能震撼上線

相關推薦

多模態AI思維導圖工具GitMind推出終身訂閱計劃，支持多源資料秒級生成圖表

馬斯克把Grok塞進Excel：選中一片數據就能問漲跌原因，圖表直接插進表格

Grok 推出 Automations 功能：定時跑、郵件一到就觸發，還能替你回信

xAI罕見起訴Grok用戶：指控其濫用AI生成兒童性虐待圖片視頻，已封停超 5 萬個違規賬戶

xAI罕見揮拳：起訴濫用Grok造不雅圖的用戶，今年已封禁 52222 個賬號