總部位於舊金山的AI初創公司Cosine推出了一款名爲Genie的新型AI模型,專爲協助軟件開發人員而設計。據該公司稱,Genie在基準測試中的表現遠超競爭對手,展現出卓越的能力。
Cosine與OpenAI合作,使用高質量數據對GPT-4o變體進行了訓練,取得了令人矚目的基準測試成績。公司表示,Genie成功的關鍵在於其“編碼人類推理”的能力,這種能力可能不僅限於軟件開發領域。

Genie在SWE領域取得領先地位
Cosine的聯合創始人兼首席執行官Alistair Pullen透露,Genie在SWE-Bench測試中獲得了30%的成績,這是AI模型在該領域迄今爲止的最高得分。這一成績超越了其他專注於編碼的語言模型,例如亞馬遜的模型(19%)和Cognition的Devin(在SWE-Bench的部分測試中爲13.8%)。
Genie的架構旨在模擬人類開發人員的認知過程,它能夠自主或協作地修復錯誤、開發新功能、重構代碼,並執行各種編程任務。
通過合成數據實現自我提升
Genie的開發過程採用了一種專有流程,使用數十億個高質量數據對非公開的GPT-40變體進行了訓練和微調。Cosine在經驗豐富的開發人員的幫助下,花費近一年的時間整理這些數據,數據集包含21%的JavaScript和Python、14%的TypeScript和TSX,以及3%的其他語言(包括Java、C++和Ruby)。
Genie的卓越表現部分歸功於其自我改進訓練。最初,該模型主要從完美、有效的代碼中學習,但對自身錯誤的處理感到困惑。Cosine通過使用合成數據解決了這一問題:如果Genie最初提出的解決方案不正確,則向模型展示如何通過正確的結果進行改進。隨着每次迭代,Genie的解決方案逐步完善,所需的修正次數也逐漸減少。

克服技術限制
Pullen早在2022年初就看到了大型語言模型在支持人類軟件開發方面的潛力。然而,當時的技術尚未達到實現Genie願景的水平。上下文窗口的標記容量通常限制在4000個標記,這是一個主要瓶頸。如今,諸如Gemini1.5Pro等型號可以在一次提示中處理多達200萬個標記。雖然Cosine尚未透露Genie的具體標記容量,但這一技術進步無疑爲Genie的成功提供了堅實的基礎。
