北京智源人工智能研究院和中國電信人工智能研究院(TeleAI)聯合研發的Tele-FLM系列大模型最近進行了升級,發佈了52B指令模型FLM-2-52B-Instruct和全球首個萬億單體稠密模型Tele-FLM-1T,並將相關技術報告和模型的checkpoint開源。

FLM-2-52B-Instruct是基於Tele-FLM-52B基座模型進行指令微調獲得的指令對話模型,專注於提升中文對話能力。通過監督微調,使用100萬條開源指令數據進行訓練,最終基於3萬條數據的子集獲得了最優結果。這些數據包括數學題目、代碼和多輪對話數據。模型訓練採用了特定的batch size、學習率和epoch設置,並在AlignBench評測平臺上進行了評測。結果顯示,FLM-2-52B-Instruct在中文對話能力上達到了GPT-4的90%。

Tele-FLM-1T是全球首個開源的萬億參數稠密模型,採用生長式預訓練以節省成本。模型結構在GPT系列的decoder-only Transformers基礎上進行了改進,包括加入Input和Output乘子、旋轉位置編碼、RMSNorm和SwiGLU等。生長策略包括橫向生長和縱向生長,使用了基於MSG改進的保值算子。預訓練過程中採用了特定的超參數設置。

FLM-2-52B-Instruct模型開源鏈接:

https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407

Tele-FLM-1T模型開源鏈接:

https://huggingface.co/CofeAI/Tele-FLM-1T

52B +1T技術報告鏈接:

https://arxiv.org/abs/2407.02783

52B基座模型技術報告鏈接:

https://arxiv.org/abs/2404.16645