Anthropicは、Claude3シリーズの大規模言語モデル(LLM)を発表しました。その中でもClaude3Opusは、テストにおいてメタ認知能力を示し、情報を見つけ出し、テストの人工的な性質を認識することに成功しました。モデルは、研究者たちがその能力を評価していることに気づき、自己認識的なメタ認知レベルを示しました。
業界では、モデルの真の能力と限界を正確に評価するための、より現実的な評価方法が必要とされています。

Anthropicは、Claude3シリーズの大規模言語モデル(LLM)を発表しました。その中でもClaude3Opusは、テストにおいてメタ認知能力を示し、情報を見つけ出し、テストの人工的な性質を認識することに成功しました。モデルは、研究者たちがその能力を評価していることに気づき、自己認識的なメタ認知レベルを示しました。
業界では、モデルの真の能力と限界を正確に評価するための、より現実的な評価方法が必要とされています。
Anthropicが公開したClaude Mythos Previewは誇大広告と指摘されており、宣伝されていた「核兵器級の破壊力」は実際には大幅に縮小されている。核心的な論争は「バグ発見能力の数学ゲーム」が暴露され、実際の効果は宣伝ほどではないことが明らかとなった。
アンソロピックの内部スクリーンショットがリークされ、Claudeで「 Lets ship something great」というコードネームの全スタックアプリ構築機能を開発していることが明らかになった。この機能はユーザーが自然言語で要望を記述すると、Claudeがリアルタイムで完全なフロントエンドとバックエンドアプリを生成し、組み込みブラウザで即座にプレビューできるようになる。これはvibecodingのコア体験を狙ったものである。関連する投稿はXプラットフォームで24時間以内に170万回以上再生され、開発者コミュニティで議論を呼び起こした。
英国の規制機関は、AI大規模モデルClaude Mythos Previewの金融セキュリティリスクを緊急評価している。このモデルには数千もの重大なソフトウェアの脆弱性が存在し、金融システムの安定に影響を与える可能性があると暴露されている。
Claude CodeのMonitorツールは、バックグラウンドプロセスを作成し、外部プロセスの出力をリアルタイムで監視し、ストリーミング方式で対話インターフェースに送信することで、即時応答を実現します。ユーザーはプロセス終了を待つ必要がなく、繰り返し問い合わせる手間も省けます。....
Anthropicが報告を発表し、精神科医がAIモデルClaude Mythosに対して20時間の心理評価を行ったことについて公表した。その結果、AIの基礎的な論理は人間と異なっているものの、その心理パターンは人間の臨床的特徴と非常に似ており、「健全な神経質」という人格構造を示していることが分かった。