北京智源人工智能研究院と中国電信人工智能研究院(TeleAI)が共同開発したTele-FLMシリーズの大規模言語モデルが最近アップデートされ、52Bパラメータの指示追従モデルFLM-2-52B-Instructと、世界初の1兆パラメータ単体稠密モデルTele-FLM-1Tがリリースされました。関連技術レポートとモデルのチェックポイントも公開されています。

FLM-2-52B-Instructは、Tele-FLM-52B基盤モデルを基に指示微調整を行った指示対話モデルで、中国語での対話能力の向上に重点を置いています。教師あり微調整を行い、100万件のオープンソース指示データを用いてトレーニングを行い、3万件のデータサブセットで最適な結果を得ました。これらのデータには、数学の問題、コード、複数ターン対話データが含まれています。モデルのトレーニングでは、特定のバッチサイズ、学習率、エポック設定を採用し、AlignBench評価プラットフォームで評価を行いました。その結果、FLM-2-52B-Instructは中国語対話能力においてGPT-4の90%に達しました。

Tele-FLM-1Tは、世界初となるオープンソースの1兆パラメータ稠密モデルで、コスト削減のために増分学習方式を採用しています。モデル構造はGPTシリーズのデコーダーオンリーTransformerをベースに改良されており、InputとOutputの乗数、回転位置エンコーディング、RMSNorm、SwiGLUなどが追加されています。増分学習戦略には、横方向の拡張と縦方向の拡張があり、MSGを改良した保全演算子を使用しています。事前学習では、特定のハイパーパラメータ設定を採用しました。

FLM-2-52B-Instructモデル公開リンク:

https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407

Tele-FLM-1Tモデル公開リンク:

https://huggingface.co/CofeAI/Tele-FLM-1T

52B +1T技術レポートリンク:

https://arxiv.org/abs/2407.02783

52B基盤モデル技術レポートリンク:

https://arxiv.org/abs/2404.16645