アメリカのAI研究機関であるアレン人工知能研究所(AI2)は、3兆トークンという膨大なデータを含むオープンソースのデータセット「Dolma」を公開しました。
このデータセットは、AI2が開発中のオープン言語モデル「OLMo」の基盤となり、2024年初頭のリリースを目指しています。Dolmaのデータは、ウェブコンテンツ、学術論文、コード、書籍など、幅広いソースから収集されています。
現在公開されている同種のデータセットの中で、Dolmaは最大規模を誇ります。

アメリカのAI研究機関であるアレン人工知能研究所(AI2)は、3兆トークンという膨大なデータを含むオープンソースのデータセット「Dolma」を公開しました。
このデータセットは、AI2が開発中のオープン言語モデル「OLMo」の基盤となり、2024年初頭のリリースを目指しています。Dolmaのデータは、ウェブコンテンツ、学術論文、コード、書籍など、幅広いソースから収集されています。
現在公開されている同種のデータセットの中で、Dolmaは最大規模を誇ります。
アリババは大晦日に新世代AIモデル「Qwen3.5」をオープンソース化。アーキテクチャを全面刷新し、AI応用の効果と柔軟性向上を目指す。これにより、同社のスマート技術分野での影響力拡大が期待される。....
智谱が新たな基盤モデルGLM-5をオープンソース化。コード生成から複雑なシステム開発までを自律的に遂行する能力を実現し、世界ランキングで4位、オープンソースモデルでは1位を獲得。Claude Opus4に匹敵する性能と優れたエンジニアリング能力を備える。....
アマゾンはAIコンテンツ市場を立ち上げる計画であり、出版業者が直接テクノロジー企業にコンテンツの著作権を販売し、大規模言語モデルの訓練データに関する著作権トラブルを解決し、コンテンツライセンスの規格化を推進しようとしている。
AIスタートアップのFundamentalが隠密状態を終え、2億5500万ドルのAラウンド資金調達を発表しました。この資金調達後の評価額は12億ドルに達しました。今回の資金調達はOak HC/FTなどの複数の機関が主導し、PerplexityやDatadogのCEOも個人として参加しました。会社のコア製品である基礎モデル「Nexus」は、ChatGPTなど主流の大規模言語モデルと競合することを目的としています。
カーネギー・メロン大学の研究チームは、大規模言語モデルを基盤とした3Dプリンティングのリアルタイムエラー修正システムを開発しました。このシステムは交響楽団のように設計されており、一つの「指揮者」というエージェントが4つの専門的なエージェントを調整します。これは、印刷プロセスにおける微細なパラメータ変動によるエラーを自動的に検出および修正し、従来のオープンループシステムでは失敗する可能性があった問題を解決します。