彩雲科技日前在北京舉辦"From Paper to App"主題溝通會,正式發佈基於DCFormer架構的通用大模型"雲錦天章",並宣佈旗下AI RPG平臺彩雲小夢升級至基於DCFormer的V3. 5 版本。這標誌着人工智能領域在模型架構效率方面取得重大突破。
在AI領域,Transformer架構一直是ChatGPT、Gemini等主流大模型的核心技術支撐。今年,彩雲科技在國際頂級會議ICML上發表的論文《Improving Transformers with Dynamically Composable Multi-Head Attention》首次提出DCFormer架構。測試顯示,基於該架構開發的DCPythia-6.9B模型在性能上實現了對傳統Transformer模型1.7- 2 倍的顯著提升。
對於AI發展面臨的能源挑戰,彩雲科技CEO袁行遠指出,根據預測,到 2050 年全球AI耗電量可能達到目前地球發電能力的 8 倍。英偉達CEO黃仁勳更形象地表示,按目前發展速度,未來可能需要" 14 個行星、 3 個星系、 4 個太陽"來爲AI提供能源支持。
針對這一困境,彩雲科技選擇從改善模型底層架構入手。DCFormer通過引入可動態組合的多頭注意力(DCMHA)機制,解除了傳統多頭注意力模塊(MHA)中注意力頭的固定綁定,實現了更靈活的動態組合,從而大幅提升模型表達能力。該創新使彩雲科技在ICML會議上的三篇論文獲得平均 7 分的高分,併成爲國內僅有的兩家受邀在維也納ICML2024 登臺演講的企業之一。
作爲DCFormer架構的首個落地產品,新版彩雲小夢展現出卓越性能:支持 1 萬字的長文本輸入,故事背景設定長度可達 1 萬字,整體流暢性和連貫性提升20%。這意味着AI能夠更好地維持劇情連貫性,保持人物性格一致性,並具備情節反思和修正能力。
彩雲科技作爲國內最早涉足大語言模型的企業之一,目前已擁有彩雲天氣、彩雲小夢、彩雲小譯三款盈利性AI產品。公司表示將繼續加大對DCFormer的研發投入,致力於打破"國外技術層、國內應用層"的傳統格局,推動國產AI技術在全球競爭中佔據優勢地位。
通過這次技術突破,彩雲科技不僅展現了中國企業在AI底層架構創新方面的實力,更爲解決AI發展中的能源瓶頸提供了新思路,有望加速AI技術的可持續發展。