一個僅有10人的小團隊,竟然敢挑戰科技巨頭Meta的地位,這簡直就是現實版的"大衛戰勝歌利亞"!
這個名叫Nous Research的初創公司可不是什麼無名之輩。他們剛剛推出的Hermes3,是基於Llama3.1的405B模型微調而成的。別看團隊人數少,但他們的實力可不容小覷。這個"十人天團"已經成功微調了Mistral、Yi、Llama等多個模型,下載量突破3300萬次,簡直就是AI界的"爆款製造機"!

Hermes3的出現,就像是給AI世界注入了一劑強心針。即便在FP8量化後,它的性能依然強勁得讓人咂舌。這種優化不僅大幅降低了模型的VRAM和磁盤需求,還讓Hermes3能夠在單個節點上運行,簡直就是開發者的福音!
在對話能力上,Hermes3簡直就是個多面手。無論是長期記憶、多輪對話、角色扮演還是內部獨白,它都能遊刃有餘。多虧了Llama3.1的128K上下文窗口,Hermes3在保持對話連貫性方面簡直就像是個經驗豐富的外交官。
但Hermes3的能耐可不止於此。它展示了一系列超越傳統語言建模的高級能力,能夠以精細且微妙的方式理解並評估生成文本的質量。這意味着它不僅能說會道,還能當個嚴格的文字評論家!
更令人驚歎的是,Hermes3還集成了幾項智能體能力,包括結構化輸出、輸出中間步驟、生成內部獨白以實現透明決策等。這就好比給AI裝上了一個"透明大腦",讓我們能夠一窺它的思考過程。
Hermes3的訓練過程堪稱是一場AI界的"魔鬼訓練"。它經歷了監督微調(SFT)和直接偏好優化(DPO)兩個階段。團隊花了整整5個月的時間來篩選和構建SFT數據集,這種專注和耐心簡直讓人肅然起敬。
Nous Research這家成立於2023年的私人應用研究小組,總部位於紐約,簡直就是AI界的"蠻族入侵者"。他們堅信開源的力量,誓要挑戰封閉技術的創新限制。公司的口號響亮得讓人熱血沸騰:"我們挑戰封閉技術將永遠佔據創新頂峯的假設,相反,我們提供強大的開源代碼。"
短短一年多的時間裏,Nous Research就發佈了5個數據集和89個模型,這種高產似乎在向世人宣告:大小並不重要,實力纔是王道!
論文地址:https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
官方介紹:https://nousresearch.com/freedom-at-the-frontier-hermes-3/
