上海AI研究所とコーパスデータ連合は、「書生・万巻」1.0多モーダル事前学習コーパスを公開しました。テキスト、画像テキスト、ビデオデータセットを含みます。
このオープンソースのコーパスは、総容量2TB以上で、細粒度のクレンジングと重複排除処理が施されており、多様な融合、精密な処理、使いやすさ、効率性を特徴としています。
本コーパスの公開は、大規模モデルの応用と革新を促進し、大規模モデル技術の参入障壁を下げることに役立ちます。

上海AI研究所とコーパスデータ連合は、「書生・万巻」1.0多モーダル事前学習コーパスを公開しました。テキスト、画像テキスト、ビデオデータセットを含みます。
このオープンソースのコーパスは、総容量2TB以上で、細粒度のクレンジングと重複排除処理が施されており、多様な融合、精密な処理、使いやすさ、効率性を特徴としています。
本コーパスの公開は、大規模モデルの応用と革新を促進し、大規模モデル技術の参入障壁を下げることに役立ちます。
2025 FORCE原動力大会で、火山エンジンCEOの譚待氏は、2026年に大規模モデル市場が10倍成長すると予測。企業競争はゼロサムゲームではなく、市場拡大と業界のAI化加速を共に目指すべきと強調。2025年はAIの大規模応用が爆発する前夜であり、競争の核心は市場拡大にある。....
ブルー・バーコードは字節跳動のドウバオ大モデルと深い協力関係を築き、そのテキスト生成やマルチラウンド会話などの機能を統合し、AIをマーケティングコンテンツ制作と自動化分野でさらに加速させます。
Mistral AIが新たに発表したOCR3は、表やスキャン文書、複雑な表、手書き文字の認識に優れ、前世代比74%性能向上。多様な文書からテキストと画像を高精度で抽出し、処理効率と精度を大幅に向上させます。....
羅永浩は、2025年度のテクノロジー革新フォーラムが12月30日に上海シーオー国際コンベンションセンターで開催され、チケットは12月22日午前中に大麦アプリで販売開始される。このイベントでは実名制のチケットが採用されており、チケットは譲渡不可で、入場時に身分情報を確認する必要があります。そのとき、羅永浩は広く知られていなかった中国のテクノロジー革新成果について共有する予定です。
レノボと字節跳動は協力し、レノボなどのハードウェアメーカーのスマートフォンにAIGCプラグインを事前インストールすることになり、ユーザー体験を向上させ、AIアプリケーション市場を拡大する予定です。この取り組みは、AIの受動的な利用状況を変えることを目的としており、AI技術の普及を加速させるものです。