月の暗い面がUCLAと共同で新しいMixture-of-Expertモデルを推進し、言語モデルのトレーニング効率を向上させる


Evo-Memory は新しいエージェントフレームワークで、連続的なタスクにおいて戦略を蓄積・再利用する能力を流式ベンチマークで評価し、動的な記憶の進化に焦点を当て、静的な対話履歴の制限を乗り越えています。
DeepL社は翻訳事業から企業向けAIエージェント分野へ進出。自社開発の大規模言語モデルを基に、自然言語指示で部門横断的な反復業務を自動化する新製品を発表。CEOは「翻訳事業の自然な延長」と説明。....
サンフランシスコのAIスタートアップであるDeep CogitoがCogito v2シリーズのオープンソース大規模モデルをリリースしました。このシリーズは機械的直感と自己改善能力を主軸に据えています。4種類の70Bから671Bパラメータを持つ密接/混合エキスパートモデルを含んでおり、ハイエンドの671B MoEモデルはDeepSeek R1と比べて推論効率が60%向上し、Claude4Opusに近い性能を発揮します。その技術的核心は、推論過程をモデルの重みに内化する内省的推論により、使用しながら学ぶことで継続的な進化を実現することです。テスト結果によると、このモデルは
["IBMの研究によると、大型言語モデルを騙して悪意のあるコードを生成させたり、誤ったセキュリティアドバイスを提供させたりするのは非常に簡単です。","ハッカーは英語の基礎知識とモデルの学習データに関する知識があれば、AIチャットボットを簡単に騙すことができます。","異なるAIモデルは騙されやすさが異なり、GPT-3.5とGPT-4は比較的騙されやすいです。"]
「お前らは全て間違っている!」最近、NvidiaのCEOが珍しく「怒る」姿を見せ、市場が中国のAI企業DeepSeekのR1モデルに対して「過剰」反応したことに公開で応えた。黄仁勋によれば、DeepSeek R1の登場はNvidiaの「飯の種」に脅威をもたらすものではなく、むしろAI発展を加速する重大な好材料であり、Nvidiaにとっては「神の助け」とも言える存在である。この件の発端は今