挑戰開源AI新高度:DeepSeek V3超越Llama3.1，訓練數據達14.8萬億token

中國人工智能公司DeepSeek日前發佈了一款具有里程碑意義的開源大語言模型DeepSeek V3。這款擁有6710億參數的模型不僅規模超越Meta的Llama3.1，在多項基準測試中的表現也優於包括GPT-4在內的主流封閉源模型。

DeepSeek V3的突出特點在於其強大的性能與高效的開發過程。該模型在編程平臺Codeforces的競賽中表現出色，並在測試代碼集成能力的Aider Polyglot測試中領先競爭對手。模型訓練採用了14.8萬億token的龐大數據集，參數規模達到了Llama3.1的1.6倍。

AI 機器人人工智能 (2)

更引人注目的是，DeepSeek僅用兩個月時間、550萬美元成本就完成了模型訓練，這個數字遠低於同類產品的開發投入。

DeepSeek背後的支持方是中國量化對衝基金High-Flyer Capital Management。該基金投資建設了擁有10，000個Nvidia A100GPU、價值約1.38億美元的服務器集羣。High-Flyer創始人梁文峯表示，開源AI終將打破當前封閉模型的壟斷優勢。

DeepSeek V3採用寬鬆許可證發佈，允許開發者下載、修改並將其用於包括商業用途在內的各類應用。儘管運行完整版本仍需要強大的硬件支持，但這一開源模型的發佈標誌着AI領域的開放創新邁出重要一步。

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

近日，開源項目BrowserUse發佈自研大語言模型BU-30B-A3B-Preview，被譽爲網頁代理領域新標杆。該模型採用混合專家（MoE）架構，總參數達300億，但推理時僅激活部分參數，兼顧強大性能與輕量化運行，顯著降低了AI瀏覽器操作的成本與門檻。

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

日本數據科學家本田崇人推出全新編程語言Sui，其設計理念源自日本美學“粋”，追求極致精煉。該語言通過消除語法錯誤、用數字代替變量名、確保每行代碼獨立運行，旨在解決大模型生成代碼時常見的語法、命名混亂及上下文依賴問題，提升代碼生成質量。

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世