最近、面壁インテリジェンスは清华大学およびOpenBMBオープンソースコミュニティと共同で、中国初の华为昇騰プラットフォーム上でトレーニングされた3値(1.58ビット)の大規模モデル「BitCPM-CANN」を正式に公開し、オープンソース化しました。このモデルは低ビット大規模モデルトレーニング分野で大きな進展を遂げ、中国が人工知能技術において新たな重要なステップを踏み出したことを示しています。
BitCPM-CANNの登場は、国内の計算力プラットフォームの強力な実力を示すだけでなく、量化オペレーターからトレーニングアルゴリズムに至るまで、すべてのプロセスをネイティブに開発するという完全なエコシステムを実現しています。このモデルは0.5B、1B、3B、8Bの4つのサイズに分けられ、性能は優れています。同サイズの全精度バージョンであるMiniCPM4と比較して、結果は非常に満足できるものとなっています。BitCPM-CANNは推論段階で約6倍のメモリの恩恵をもたらし、これにより8Bパラメータのモデルが現在主流のフラッグシップスマートフォンで簡単に動作するようになり、スマートフォン業界にとって大きな利便性をもたらします。

公式紹介によると、面壁インテリジェンスはMindSpeedとMegatron-LMを基盤として、完全な低ビットトレーニングベースを構築しました。これは環境適応、32Kの長文サポート、並列戦略、統合オペレーターなどのエンジニアリング体系を含んでいます。今後、昇騰向けのすべての低ビットトレーニング作業はこの公共インフラストラクチャを基盤に行うことができます。これは開発の門檻を下げ、技術の反復速度を速めるだけでなく、さらに効率的な開発を可能にします。

この技術のさらなる応用を推進するために、BitCPM-CANNのすべてのモデルウェイトはオープンソース化されています。ユーザーはHuggingFaceやModelScopeプラットフォームを通じて取得できます。これは開発者にとって非常にポテンシャルのあるツールであり、AI分野におけるより多くの革新的な応用の出現を促進します。
総じて述べると、BitCPM-CANNのリリースは中国がAI大規模モデルトレーニング分野で確かな一歩を踏み出すことを意味し、将来のスマートアプリケーションの道を広げました。
