在人工智能領域,大模型的研究不斷進展,尤其是在推理能力的提升上。最近,由前谷歌 CEO 埃裏克・施密特投資的初創公司 FutureHouse,開源了一個名爲 ether0的化學任務推理模型,參數規模高達240億。這一模型在不需要額外領域預訓練的情況下,通過後訓練技術,展現出強大的化學領域能力,尤其是在數據需求上相比於傳統領域專用模型顯著減少。
推理模型的應用不僅限於簡單的選擇題測試,FutureHouse 團隊希望通過 ether0改變這種現狀,推動科學推理的深入研究。爲了構建該模型,研究團隊從大量的學術論文中整理了化學實驗數據,追蹤分子特性如溶解度和氣味,並將這些數據轉化爲可驗證的科學問題。
ether0基於 Mistral-Small-24B 架構,利用強化學習進行訓練,並處理了640,730個實驗數據相關的化學問題,涵蓋18類任務,包括合成可行性、血腦屏障滲透性和氣味分析等。爲了提升模型性能,研究團隊引入了推理行爲蒸餾和動態課程學習等技術。
在性能評估方面,ether0與多種通用大語言模型(如 Claude、o1)及化學專用模型(如 ChemDFM、TxGemma)進行了對比。結果顯示,ether0在開放答案(OA)類別中準確率最高,選擇題(MCQ)方面也具備強大的競爭力。其在某些任務上的準確率甚至達到了競爭對手的兩倍以上。
此外,ether0在訓練成本上也展現出顯著的優勢,要達到相似的反應預測準確率,傳統的非推理型模型需要消耗50倍以上的數據。儘管 ether0在獨立基準測試中難以與其他模型及人類表現進行交叉驗證,但其能夠對未經過訓練的分子結構進行有效推理。
總之,ether0不僅能理解自然語言提問,還能通過自然語言進行推理,最終生成分子結構,特別擅長於類藥分子的設計。儘管目前仍處於原型階段,但其已爲未來構建通用科學推理模型奠定了堅實的基礎。
劃重點:
🌟 Ether0是由 FutureHouse 開源的240億參數化學推理模型。
📈 該模型的準確率在多個任務中超越了 GPT-4.1和 DeepSeek-R1等領先模型。
💰 訓練 ether0所需的數據量顯著低於傳統非推理型模型。