このたび、InternLMチームはオープンソースの軽量なマルチモーダル推論モデル「Intern-S1-mini」を正式にリリースしました。このモデルはパラメータ数が8Bで、先進的なQwen3-8B言語モデルと0.3Bの視覚エンコーダーInternViTを組み合わせており、強力な処理能力と柔軟性を備えています。

Intern-S1-miniは大規模な前訓練を経ており、合計で5兆を超えるtokenデータを使用しています。特に注目すべきは、そのうち2.5兆以上のtokenが化学、物理、生物学、材料科学などの複数の科学分野から来ていることです。これにより、Intern-S1-miniは通常のテキストや画像の入力処理だけでなく、複雑な分子式やタンパク質配列の解釈、効果的な合成経路の計画にも対応でき、科学研究分野での広範な応用可能性を示しています。

image.png

公式のベンチマークテスト結果によると、Intern-S1-miniは多くの分野でのタスク性能において同類モデルを上回っています。MMLU-Pro、MMMU、GPQAおよびAIME2024/2025などのタスクでは驚くべき性能を発揮しており、ChemBenchスコアは76.47、MatBenchスコアは61.55、ProteinLMBenchは58.47となっています。これらの成績はIntern-S1-miniの強力な実力を証明するだけでなく、テキスト、画像、動画の入力に対する互換性も示しています。

面白いことに、Intern-S1-miniはデフォルトで「思考モード」が有効になっており、ユーザーは簡単なスイッチコマンド(enable_thinking)で切り替えることができます。このような設計により、モデルのインタラクティブ性が強化され、ユーザーにとってより柔軟な使用体験を提供します。

技術が急速に進化する現代において、Intern-S1-miniのリリースは研究者や開発者に新たなツールを提供し、マルチモーダル推論分野でのさらなる革新と突破を支援するものです。基礎研究でも実際の応用でも、このモデルは注目に値する存在となるでしょう。