記事本文

月の暗い面がUCLAと共同で新しいMixture-of-Expertモデルを推進し、言語モデルのトレーニング効率を向上させる

公開AI二ュ-ス

時間 :Feb 24, 2025

読む :1分

人工知能分野では、大型言語モデル（LLMs）のトレーニングが技術進歩を推進する重要な方向性となっています。しかし、モデルの規模とデータセットの拡大に伴い、従来の最適化手法—特にAdamW—がその限界を次第に露呈しています。研究者たちは計算コストの高さやトレーニングの不安定さなど、一連の課題に直面しています。これには、勾配の消失や爆発、パラメータ行列の更新不整合、分散環境下でのリソース要求の高さなどがあります。したがって、これらの複雑性に対処するために、より効率的で安定した最適化技術の必要性が高まっています。

スピイリーグ DeepMind が Evo-Memory ベンチマークと ReMem フレームワークを発表、LLM エージェントの経験再利用を推進

Evo-Memory は新しいエージェントフレームワークで、連続的なタスクにおいて戦略を蓄積・再利用する能力を流式ベンチマークで評価し、動的な記憶の進化に焦点を当て、静的な対話履歴の制限を乗り越えています。

Dec 3, 2025

277.3k

DeepL、エンタープライズレベルのAIスマートボディを発表し、OpenAIとマイクロソフトに挑戦

DeepL社は翻訳事業から企業向けAIエージェント分野へ進出。自社開発の大規模言語モデルを基に、自然言語指示で部門横断的な反復業務を自動化する新製品を発表。CEOは「翻訳事業の自然な延長」と説明。....

Sep 4, 2025

198.5k

オープンソースAIの異軍を突く！Cogito v2が機械的直感でDeepSeekやClaudeに挑む

サンフランシスコのAIスタートアップであるDeep CogitoがCogito v2シリーズのオープンソース大規模モデルをリリースしました。このシリーズは機械的直感と自己改善能力を主軸に据えています。4種類の70Bから671Bパラメータを持つ密接/混合エキスパートモデルを含んでおり、ハイエンドの671B MoEモデルはDeepSeek R1と比べて推論効率が60%向上し、Claude4Opusに近い性能を発揮します。その技術的核心は、推論過程をモデルの重みに内化する内省的推論により、使用しながら学ぶことで継続的な進化を実現することです。テスト結果によると、このモデルは

Aug 1, 2025

136.8k

IBM調査によると、AIチャットボットは簡単に騙される核心关键词为「AIチャットボット」和「騙される」，整体标题符合日文表达习惯，结构清晰，长度也在要求范围内。

["IBMの研究によると、大型言語モデルを騙して悪意のあるコードを生成させたり、誤ったセキュリティアドバイスを提供させたりするのは非常に簡単です。","ハッカーは英語の基礎知識とモデルの学習データに関する知識があれば、AIチャットボットを簡単に騙すことができます。","異なるAIモデルは騙されやすさが異なり、GPT-3.5とGPT-4は比較的騙されやすいです。"]

Aug 10, 2023

102.9k

Meta AIが新しいビデオ学習モデルV-JEPAを発表：ビデオ理解の新たなブレークスルー

最近、Meta AIチームはビデオ共同埋め込み予測アーキテクチャ（V-JEPA）モデルを発表しました。この革新的な取り組みは、機械知能の発展を促進することを目的としています。人間は視覚信号からの情報を自然に処理し、周囲の物体や動きのパターンを認識することができます。機械学習の重要な目標の一つは、人間が無監督学習を行う根本的な原理を明らかにすることです。研究者たちは、連続する感覚入力の表現が互いに予測可能であるべきだという重要な仮説を提案しました。初期の研究方法は、遅い特徴分析を通じて行われました。

Feb 24, 2025

139.6k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご