最近、クォークは健康大規模モデル技術報告書「QuarkMed Technical Report」を正式に発表し、「主任医師レベル」の能力の技術的実装細節を初めて公開しました。

352cb8e3950b7e78286868cec34d71b2.png

QuarkMed Technical Report

これまでに、クォークの健康大規模モデルは中国の12科目の主任医師試験に合格し、国内で初めてこのチャレンジを達成した大規模モデルとなりました。汎用モデルと比較して、クォークの健康大規模モデルは「難易度が高いほど、優位性が顕著になる」という性能曲線を示しており、特に複雑な医学的推論タスクにおいて突破を遂げました。今回の技術報告書では、この突破の背後にある重要な経路と技術的特徴が体系的に明らかにされています。

医療モデルにとって高品質で専門的な訓練データが必要であるという課題に対し、クォークの健康大規模モデルはモデルの訓練の異なる段階で、3つの主要な医療データを使用しました。医学資料、医学知識、医療記録です。これらのデータの総量は約1兆トークンに及んでいます。こうした専門的なデータは、事前学習用の文脈データの不足を効果的に補うことができ、モデルの正確性や推論能力の向上に寄与します。

20b7dd91-2cef-43cb-885a-11fefa43f378.png

医療データソースの分類および規模

モデルの正確性、安全性、そして複雑な推論能力を向上させるために、クォークの健康大規模モデルは2つの強化学習(RL)の段階を導入しています。第1段階では、大規模な医学的強化学習を通じて、大規模モデルが複雑な状況での推論能力を向上させます。第2段階では、報酬モデルを設計し、誠実性、有用性、コンテンツの適合性の3つの観点からモデルの出力品質を評価し、モデルの行動を調整することで、人間の好みや価値観に合ったものにします。

7d10111d-56a0-49c4-8d54-d5e51b1b8c40.png

トレーニング中に一般的なタスクと推論タスクに対して3種類の報酬信号を使用

技術報告書には、いくつかのパフォーマンステスト結果も掲載されています。MedQAなどの国際的な権威あるデータセットでのテストでは、クォークの健康大規模モデルはo3-miniなどの同サイズモデルと比較してより優れた性能を示しました。中国の医師資格試験(CPQExam)の筆記試験評価では、試験の難易度が高くなるにつれて、クォークの健康大規模モデルの優位性がさらに顕著になりました。

5fd451b8-607c-4f33-9e35-b9938a419393.png

CPQExamテスト結果

報告書によると、クォークは医師試験のテストセットを全面的に公開する予定であり、医学関連のAI研究の促進を目指しています。

添付のアクセスおよびダウンロードアドレス:

https://arxiv.org/pdf/2508.11894

https://github.com/Quark-Medical/QuarkMed/blob/main/report/QuarkMed_Technical_Report.pdf