xAI 新模型 Grok 3 邏輯推理能力獲 OpenAI 創始人點贊

埃隆・馬斯克的人工智能公司 xAI 於本週一發佈了其最新的語言模型 Grok3，標誌着該公司在人工智能領域的重要進展。據馬斯克介紹，新模型所需的計算能力是其前身的十倍，使用了位於孟菲斯的數據中心，配備了約20萬塊 GPU。

Grok3系列模型推出了多種變體，其中包括一個精簡版，旨在提高速度但犧牲部分準確性。此外，新的 “推理” 模型專門設計用於解決數學和科學問題。用戶可以通過 Grok 界面中的 “思考” 和 “大腦” 設置來調整這些功能。xAI 表示，這一版本尚未最終定型，模型仍在持續訓練中，團隊計劃在未來幾周內進行改進。

根據 AI 基準測試平臺 lmarena.ai 的數據，Grok3在聊天機器人領域的得分超過了1400，成爲領先者，涵蓋編程等所有類別，超越了 OpenAI、Anthropic 和谷歌的模型。然而，實際性能可能與基準結果有所不同。例如，儘管 Claude3.5Sonnet 在編碼基準測試中的得分低於某些模型，但許多用戶仍認爲它是編程任務的更優選擇。

OpenAI 創始人安德烈・卡爾帕西（Andrej Karpathy）獲得了 Grok3的早期訪問權，他對該模型的邏輯推理能力給予了高度評價。“思考” 功能能夠成功處理複雜任務，比如計算 GPT-2的訓練 flops 或爲棋盤遊戲創建六邊形網格，這些能力在之前僅限於 OpenAI 的高端模型 o1-pro。此外，該功能還提高了基本數學操作的準確性，比如字母計數和比較小數。

在新搜索功能方面，卡爾帕西指出，DeepSearch 的質量與 Perplexity 的研究工具相當，可以提供關於即將發佈的蘋果產品和 Palantir 股票動態等主題的相關答案。然而，他也發現了一些明顯的問題:模型有時會生成虛假的網址，做出不支持的聲明，並且僅在特定提示下引用 X 的帖子。

它似乎還對自己的存在缺乏意識，遺漏了 xAI 在主要 AI 實驗室中的位置。這些侷限性使 DeepSearch 尚未達到 OpenAI “深度研究” 的質量水平，並且在幽默和倫理問題上表現不佳。

xAI 新模型 Grok 3 邏輯推理能力獲 OpenAI 創始人點贊

相關推薦

資本騰挪玩得溜！馬斯克整合旗下公司每年躺賺近 10 億美元

AI大廠首個盈利季度誕生？Anthropic有望在今年二季度跑贏兩大死敵

xAI去年鉅虧 64 億美元：SpaceX招股書揭祕馬斯克“燒錢遊戲”

Anthropic 與 xAI 達成鉅額算力租賃協議，未來將支付超 400 億美元

SpaceX 提交 S-1文件:xAI 旗下 Grok 違規圖像及安全調查被列爲重大風險因素

xAI 新模型 Grok 3 邏輯推理能力獲 OpenAI 創始人點贊

相關推薦

資本騰挪玩得溜！馬斯克整合旗下公司每年躺賺近 10 億美元

AI大廠首個盈利季度誕生？Anthropic有望在今年二季度跑贏兩大死敵

xAI去年鉅虧 64 億美元：SpaceX招股書揭祕馬斯克“燒錢遊戲”

​Anthropic 與 xAI 達成鉅額算力租賃協議，未來將支付超 400 億美元

SpaceX 提交 S-1文件:xAI 旗下 Grok 違規圖像及安全調查被列爲重大風險因素

Anthropic 與 xAI 達成鉅額算力租賃協議，未來將支付超 400 億美元