記事では、42歳のボノボ、カンジが「マインクラフト」をプレイする実験に成功したチンパンジー行動計画について報じています。その学習方法は、GPT-4エージェントの訓練方法と似ていることが分かりました。コンテキスト強化学習、RLHF、模倣学習、カリキュラム学習などの手法を用いて、カンジは移動、報酬の収集、障害物の破壊などのスキルを習得しました。この実験は、動物が新しい環境を認識し適応する能力が、AIエージェントを凌駕することを示しています。
関連推奨
Wan2.5-Previewのリリース 多モード入力と映画級のビデオ同期生成を実現
Wan2.5-Previewが正式リリース。マルチモーダル処理や動画生成、画像編集を統一フレームワークで実現。テキスト、画像、動画、音声の柔軟な入出力が可能に。....
果新研究がLLMの整合性の新しい枠組みを明らかに:チェックリスト型の強化学習は従来の報酬モデルよりも優れている
Apple研究者が新しい「チェックリスト式」強化学習手法(RLCF)を提案。モデルが自ら作業をチェックすることで、オープンソース大規模言語モデルの性能を大幅に向上。複雑なタスクで従来の報酬モデルを上回り、RLHFの限界を突破。重要な学習後最適化手法として注目。....
コンラント・ワンウェイが再びリワードモデルSkywork-Reward-V2をオープンソース化
2025年7月4日、コンラント・ワンウェイは勢いに乗って、第二世代のリワードモデル「Skywork-Reward-V2」シリーズをオープンソース化しました。このシリーズには、異なるベースモデルに基づいており、パラメータ数が6億から80億に至る8つのリワードモデルが含まれています。発表後すぐに、主要な7つのリワードモデル評価リストで全カテゴリーで優勝し、オープンソースリワードモデル分野の注目を集めました。リワードモデルは、人間からのフィードバックをもとにした強化学習(RLHF)プロセスにおいて重要な役割を果たします。次世代のリワードモデルを開発するために、コンラント・ワンウェイは4000万件のデータセットを構築しました。
京東零售、初の自社開発10億規模の時系列大規模言語モデルTimeHFを発表 商品販売量の予測が可能に
京東零售の技術チームは、自社開発による初の10億規模の販売予測時系列大規模言語モデルTimeHFを発表しました。このモデルは、人間のフィードバックによる強化学習技術(RLHF)に基づいており、販売予測分野への応用は初めてです。予測精度は10%以上向上し、需要予測における不確実性を大幅に削減しました。この成果は、京東内部の2万種類の商品における自動補充のシナリオで優れた成果を上げています。
バイトダンス、大規模言語モデル訓練速度を20倍に向上させるオープンソースツール「HybridFlow」を発表!コストも大幅削減!
GPTやLlamaなどの大規模言語モデル(LLM)はAI分野に革命を起こしましたが、これらの巨大なモデルを効率的に訓練し、人間の価値観に沿わせる方法は依然として課題です。強化学習からのヒューマンフィードバック(RLHF)は重要なLLM訓練方法として近年広く利用されていますが、従来のRLHFフレームワークは柔軟性、効率性、拡張性に限界がありました。これらの問題を解決するため、バイトダンスのDoubao大規模言語モデルチームは、HybridFlowというRLHFフレームワークをオープンソース化しました。
