正文

OpenBuddy開源大語言模型團隊發佈Llama3.1-8B模型中文版

發布於AI新閒資訊

時間 :Jul 25, 2024

閱讀 :1分鐘

Meta最近發佈了新一代開源模型系列Llama3.1，其中包括一個405B參數的版本，其性能接近甚至在某些基準測試中超越了GPT-4等閉源模型。Llama3.1-8B-Instruct是該系列中的一個8B參數版本，支持英語、德語、法語、意大利語、葡萄牙語、西班牙語、印地語和泰語，上下文長度高達131072tokens，知識截止日期更新至2023年12月。

爲了增強Llama3.1-8B-Instruct的能力，Meta在訓練中使用了超過2500萬條合成數據，這些數據由更大的405B模型生成。這使得Llama3.1-8B-Instruct在代碼、數學等測試中表現出與GPT3.5Turbo相近的認知和推理能力。

微信截圖_20240725083410.png

OpenBuddy利用Llama3.1-8B-Instruct模型，通過在少量中文數據上進行訓練，發佈了OpenBuddy-Llama3.1-8B-v22.1-131K，這是一個具備中文問答和跨語言翻譯能力的新一代開源跨語言模型。儘管Llama3.1本身不具備中文能力，但經過訓練後，該模型在一些容易產生概念混淆的問題上能夠生成通常只有更大模型才能生成的答案，顯示出更強的認知潛力。

然而，由於訓練數據集和時間的限制，OpenBuddy-Llama3.1-8B-v22.1在中文知識，特別是傳統文化知識上仍存在侷限。儘管如此，模型在長文理解等任務上表現出相對穩定的表現，這得益於其原本的長文能力。

未來，OpenBuddy計劃對8B和70B模型進行更大規模的訓練，以增強模型的中文知識儲備、長文能力和認知能力，並探索微調405B模型的可能性。

項目地址：https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

Meta 低調殺入 AI 原生社交，掌上應用 Pocket 開啓趣味互動新玩法

Meta推出AI社交應用Pocket，用戶輸入文字提示即可生成並分享互動遊戲“gizmo”，零編程門檻讓普通人化身創作者，與好友共同探索、親密互動。

Jul 3, 2026

96.5k

不向供應鏈低頭！Meta聯手臺積電美光讓新服務器用上舊內存

人工智能浪潮下，新一代DDR5內存嚴重斷貨。Meta聯合臺積電、美光等開發出過渡方案，讓僅支持DDR5的AI服務器能穩定運行DDR4內存。這套“縫合怪”系統實測穩定性出衆，有效避免數據中心建設受阻。

Jul 3, 2026

122.7k

警惕“AI 蒸餾”：Meta 封殺競品編碼工具，大模型行業護城河博弈升級

Meta被曝禁止工程師使用Anthropic的Claude Code和OpenAI的Codex，此舉揭開AI企業間“模型蒸餾”博弈序幕。蒸餾指利用強模型輸出訓練新模型，Meta的核心憂慮是防範對手通過員工使用競品工具，間接獲取數據或知識以複製優化自身模型。

Jul 2, 2026

169.5k

Meta效仿SpaceX建立雲業務:轉售閒置AI算力，股價大漲10%

Meta效仿SpaceX模式進軍雲服務，轉售閒置AI算力並開放AI模型。作爲英偉達最大買家之一，其近期裁員旨在集中資金押注AI基建，僅今年投入就超百億美元。

Jul 2, 2026

176.0k

算力告急：谷歌限制 Meta 訪問 Gemini 模型，促使 Meta 加速自主研發

谷歌因全球算力短缺限制Meta訪問頂級AI模型Gemini，此前該模型是Meta自動化安全審覈的核心，高效處理詐騙和有害內容檢測。此舉凸顯雲計算能力瓶頸正影響科技巨頭關鍵業務。

Jul 1, 2026

179.8k

智啟未來，您的人工智能解決方案智庫