Meta最近發佈了新一代開源模型系列Llama3.1,其中包括一個405B參數的版本,其性能接近甚至在某些基準測試中超越了GPT-4等閉源模型。Llama3.1-8B-Instruct是該系列中的一個8B參數版本,支持英語、德語、法語、意大利語、葡萄牙語、西班牙語、印地語和泰語,上下文長度高達131072tokens,知識截止日期更新至2023年12月。
爲了增強Llama3.1-8B-Instruct的能力,Meta在訓練中使用了超過2500萬條合成數據,這些數據由更大的405B模型生成。這使得Llama3.1-8B-Instruct在代碼、數學等測試中表現出與GPT3.5Turbo相近的認知和推理能力。

OpenBuddy利用Llama3.1-8B-Instruct模型,通過在少量中文數據上進行訓練,發佈了OpenBuddy-Llama3.1-8B-v22.1-131K,這是一個具備中文問答和跨語言翻譯能力的新一代開源跨語言模型。儘管Llama3.1本身不具備中文能力,但經過訓練後,該模型在一些容易產生概念混淆的問題上能夠生成通常只有更大模型才能生成的答案,顯示出更強的認知潛力。
然而,由於訓練數據集和時間的限制,OpenBuddy-Llama3.1-8B-v22.1在中文知識,特別是傳統文化知識上仍存在侷限。儘管如此,模型在長文理解等任務上表現出相對穩定的表現,這得益於其原本的長文能力。
未來,OpenBuddy計劃對8B和70B模型進行更大規模的訓練,以增強模型的中文知識儲備、長文能力和認知能力,並探索微調405B模型的可能性。
項目地址:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k
