【AIbase ニュース】最近、旧金山に本社を置くあまり知られていないが注目されているスタートアップ企業であるDeep Cogitoは、自社のCogito v2シリーズの大規模言語モデル(LLM)を発表しました。このモデルは、混戦するオープンソースAIの競争の中で突破を図る試みです。従来のパラメータの積み重ねというアプローチとは異なり、元グーグルのエンジニアによって設立された同社は、「機械の直感」と自己改善可能な推論能力に賭け、実際に「使いながら学ぶ」ことができるAIモデルを開発しました。

モデルは質問に答えるだけでなく、「どうやって質問に答えるか」を学ぶ

Cogito v2シリーズには4つのモデルがあり、パラメータ数は70Bから671Bまで異なります。これらは、密接なモデル(Dense)と専門家混合モデル(MoE)に分類され、Hugging FaceやTogether AIなどのプラットフォームで利用可能です。エクスパートモデルのCogito v2-671B MoEは、「思考効率が最適」とされる推論型AIとして知られ、DeepSeek R1よりも推論パスが60%短く、性能はQwen1.5-72BやClaude4Opusに匹敵またはそれを上回ります。

このモデルの核心技術は、実行中に「内省的な推論」を行うだけでなく、これらの推論パスをモデルの重みに統合して内化した直感を作り出すことです。このメカニズムにより、AlphaGoが対局を通じて戦略を強化するように、モデルは毎回の推論を通じて「より賢くなる」ことができます。

メタバース サイエンスフィクション サイバーパンク 絵画 (4)大規模モデル

実践的な推論力の検証:速さが早く、経路が短い

Deep Cogitoは、「機械の直感」を検証するために複数のテストケースを公開しました。

  • 数学の問題では、Cogito671Bは100トークン程度の推論チェーンで正確な結論を得ましたが、DeepSeek R1は200以上のトークンを使用しました。

  • 法的な推論では、2段階の論理構造を使って明確な結論を出力し、多くのモデルや現実の法学修士学生の結果を上回りました。

  • 古典的な親族論理の質問「アリスはチャールズの祖母ですか?」において、Cogito v2は代名詞の混乱の罠を回避し、「祖母」と正確に出力しました。

より低コストなトレーニング方法、百万ドル予算の神話を挑戦

Cogito v2のモデル規模が大きくても、Deep Cogitoはその8つのモデルのトレーニング総額が350万ドル未満であると述べています。これはOpenAIやAnthropicのような企業が何億ドルもの開発費をかけることと比べて鮮明です。

会長のDrishan Arora氏は、「より良いモデルはデータを多くトレーニングするのではなく、意味のあるデータをトレーニングすることにある」と語っています。それがCogitoモデルが推論タスクで突破できる理由です。

オープンソースの理念を引き継ぎ、「進化するモデルシステム」を構築

Cogito v2モデルは現在、Hugging Face、Baseten、RunPod、UnslothなどのプラットフォームからダウンロードまたはAPIで呼び出せます。軽量なデプロイメント環境向けには、Cogito671BはFP8量子化バージョンも提供しており、大規模モデルがより低いハードウェアの要件で動作でき、推論効率が向上し、精度はわずかに低下します。

さらに重要なのは、Deep Cogitoがすべてのモデルをオープンソースにする約束をしていること、そして継続的に改善・最適化を行い、推論パスフィードバックと自己改善を核とする新しいモデルトレーニングアプローチを構築することです。