北京で開催された初のオープンデーにおいて、智象未来は新世代のネイティブマルチモーダルモデルアーキテクチャ「Unified Transformer(UiT)」を基盤として構築された画像大規模モデル「HiDream-O1-Image-Pro」を正式に発表しました。このパラメータ数が2000億を超えるネイティブマルチモーダル大規模モデルは、多くの権威あるベンチマークテストでSOTA(最高レベル)記録を更新しました。またその日のうちに、智象未来はわずか15日間で第二ラウンドの資金調達を完了し、深创投や金浦投資などの主要な機関から支援を受け、マーケットが「ネイティブマルチモーダル」技術への高い信頼を示したことを再確認しました。

核心技术の突破:「モダールの結合」から「ネイティブ統一」へ

現在、視覚生成分野では「VAE+独立言語モデルエンコーディング」という断片的な結合型のアプローチが一般的ですが、複雑な意味理解や細部の再現には限界があります。智象未来はUiTアーキテクチャを通じて、原始的な画像ピクセル、テキストタグ、およびタスク条件を統一された連続的な共有タグ空間に統合し、「ベースレベルの表現融合」を実現しました。

  • HiDream-O1-Image-Pro: このモデルは非公開バージョンであり、パラメータ数は200Bを超えています。これはトップクラスのテキストから画像生成能力を持ち、複雑な文字レイアウト、インストラクション編集、そして多主体の個別化生成などにおいて業界の新しい基準を樹立しています。

  • オープンソースの基準: 8Bパラメータバージョンは同源のアーキテクチャを採用しており、以前に世界の評価プラットフォームArtificial Analysisでのテキストから画像生成ランキングでオープンソースモデルの第1位を獲得し、上位20位の中でパラメータ数が最小のバージョンとなりました。これにより、UiTアーキテクチャの優れた拡張性が十分に証明されました。

戦略の重点:「ネイティブマルチモーダル」で世界モデルを構築する

智象未来の創業者兼CEOである梅涛氏は、業界内での「マルチモーダル」は多くが「単一モードの結合」であり、智象未来が目指すのは「ネイティブマルチモーダル」であると述べました。彼は、モデルアーキテクチャの初期段階から「世界のルール」(空間関係、物理法則、因果論理)を組み込むことで、モデルが「コンテンツの生成」から「世界の理解・推論・再構築」へと進化できると説明しました。これはAGI(汎用人工知能)を実現するための必經之路だと考えています。

業務の実装:モデル+エージェントの二輪駆動

底層アーキテクチャの深化に加え、智象未来は「1+1+3」のビジネス構造を構築し、三大核心エージェントアプリケーションによって商業的実装を推進しています:

  • ビジネスマーケティングエージェント (HiBurst): TikTok公式Top5サプライヤーとなり、年間で100万本以上のECマーケティングビデオを生産し、GMVは億元を超えています。

  • AI映画制作エージェント ("フレーズ賞"): クリエイティブから完成までの一連の流れを完全にカバーしており、これまでに短編ドラマの総放送時間が5000時間以上に達し、千以上の専門チームが登録しています。

  • SNS創作エージェント (vivago): モバイル端末からの長時間の思考とミニッツ単位のストーリービデオ生成をサポートしており、世界100以上の国と地域で4,000万ユーザーをカバーしています。

生態系の構築:AGIへの産業的道筋

オープンデーの会場で、智象未来は上海影視新視野ファンド、ブルークォート、ジェイシェンシジー、ベイエルヘルスと提携を発表し、映画制作、跨境电商、医療健康などの分野に深く関わることで、モデルの能力が業界シーンへの転換を加速させます。

視覚生成から世界モデルの構築へ、智象未来は「Imaging the World」というビジョンを通じて、統一されたモデリングフレームワークを通じて、AIが異なるモードにおける環境状態を理解し、変化を予測できるようにすることを目指しています。多様な資本の継続的な注入と商業生態系の急速な拡大に伴い、智象未来は視覚技術提供者から汎用的世界モデル構築者の役割へと急激に変化しています。