アブダビテクノロジイノベーションインスティテュート(TII)は最近、新しくオープンソースの大型言語モデル「Falcon H1R7B」をリリースしました。このモデルは、70億パラメータのコンパクトな規模を維持しながら、業界で最も優れた推論性能を示し、「大きいほど強いか」という従来の考え方を大きく挑戦しています。この注目すべき新製品について一緒に見ていきましょう。

Falcon H1R7B の設計とトレーニングプロセスは2つの段階に分かれています。最初は「コールドスタートの監督微調整(SFT)」で、これは既存の Falcon-H1-7B モデルに基づいており、数学、プログラミング、科学などの分野で主にトレーニングされます。次の段階は「強化学習による拡張(GRPO)」であり、SFTの結果をもとに報酬メカニズムを使ってモデルを最適化し、推論の論理性や出力の多様性を向上させます。

image.png

性能面では、Falcon H1R7B は速度、Token効率、正確性など複数の次元で詳細な最適化が行われています。独自の「Deep Think with Confidence(DeepConf)」推論方法により、生成されるToken数が少なくなり、全体的な正確性が顕著に向上します。また、このモデルはTransformerとMamba(状態空間モデル)のハイブリッドアーキテクチャを採用しており、長文の文脈処理において優れたパフォーマンスを発揮し、推論のスループットを向上させています。

注目すべき点は、Falcon H1R7B が多くの公開ベンチマークテストで優れた成績を収めていることです。例えば数学的推論においては、AIME-24テストで88.1%という優れたスコアを獲得し、多くの15Bモデルよりも優れています。コードと代理タスクのLCB v6テストでは、68.6%のスコアで<8Bモデルの中でもトップクラスとなっています。また、一般的な推論能力を測るMMLU-ProおよびGPQAテストでは、より大きなモデルよりも競争力があることが判明しています。

image.png

さらに、Falcon H1R7B の推論スループットも非常に高いです。一般的なバッチサイズでのGPUごとのToken処理速度は約1500tokens/sであり、一部の競合製品のほぼ2倍です。低計算能力の環境でも、このモデルは深度推論タスクを効果的に実行でき、開発者や企業にとっての導入には非常に適しています。