AI21Labs 近日宣佈推出其最新的開源小型語言模型 ——Jamba Reasoning3B。這款被稱爲 “迷你語言模型” 的系統專爲在設備上進行人工智能計算而設計。Jamba Reasoning3B 是該公司在特拉維夫開發的 Jamba 系列模型的最新成員,並採用 Apache2.0許可證發佈。
與大多數市場上流行的大型語言模型(LLM)不同,Jamba Reasoning3B 建立在 AI21自有的混合狀態空間模型(SSM)- 變換器架構之上。狀態空間模型是一種用於序列建模的深度學習算法,相比傳統變換器在某些任務上更加高效。這類模型通過當前狀態預測下一個狀態。Mamba 是一種基於 SSM 的神經網絡架構,構成了 Jamba 架構的一部分。
這款迷你語言模型的上下文窗口長度達到了256,000個標記,最多可以處理1,000,000個標記,具備與 Anthropic Claude、Google Gemini 和 Meta Llama 等大型語言模型相似的能力,但卻可以在 iPhone、Android 設備、Mac 和 PC 等小型設備上運行。
Futurum Group 的分析師 Brad Shimmin 表示,他一直是狀態空間模型的支持者,認爲這一理念在行業內已有相當長的歷史,但直到現在纔有切實可行的實現方式。他指出,隨着技術的演進,狀態空間模型的使用變得更加可行,因爲其擴展性強且速度快。
SSM 類型模型使用繩索縮放技術來擴展模型的注意機制,從而有效優先處理任務,同時所需的計算能力比大型語言模型少。雖然 AI21是一家相對較小的生成 AI 公司,但由於其獲得了 Google 和 AI 芯片巨頭 Nvidia 的支持,並自2017年成立以來融資超過6億美元,因此它可以通過建立生態系統來從開放源代碼模型 Jamba Reasoning3B 中獲利。
在發佈會上,AI21展示了 Jamba 模型在廣泛使用的基準測試系統如 IFBench、MMLU-Pro 和 Humanity's Last Exam 上的表現,證明其超越了包括阿里巴巴的 Qwen3.4B、谷歌的 Gemma3.4B、Meta 的 Llama3.23B、IBM 的 Granite4.0Micro 和微軟的 Phi-4Mini 等多個大型開源 LLM。
Shimmin 認爲,這款迷你語言模型在企業市場中有廣闊的前景,因其支持檢索增強生成技術,企業能夠根據自身需求進行定製,同時確保數據的安全性。他提到,一個潛在的應用領域是客戶服務中心,通過其推理能力來處理客戶投訴,判斷問題是否需要升級到人工或其他模型。
劃重點:
✨ AI21Labs 發佈了 Jamba Reasoning3B,一個開放源代碼的迷你語言模型,專爲邊緣 AI 應用設計。
🔍 Jamba Reasoning3B 採用了混合的狀態空間模型架構,能夠高效處理大量數據並在小型設備上運行。
💼 該模型在企業市場具有潛力,能夠根據企業需求進行定製,同時確保數據安全。
