MEニュース 4月14日(UTC+8)、1M AI Newsの監視によると、英国AI安全研究所(AISI)はClaude Mythos Previewのサイバーセキュリティ能力評価を発表しました。専門家レベルのCTFミッション(2025年4月までにどのモデルも完了できない難易度)で、Mythos Previewの成功率は73%に達しました。AISIはまた、「The Last Ones」(TLO)という32段階の企業ネットワーク攻撃模擬シナリオを構築し、初期偵察からネットワーク全体の完全掌握までの全工程をカバーし、人間が完了するには約20時間かかります。Mythos Previewは初の全工程通過モデルで、10回のテスト中3回完全に完了し、すべての試行の平均完了ステップ数は22ステップです。Claude Opus 4.6は2位で、平均16ステップを完了しました。AISIは、これらの結果は明確な誘導とネットワークアクセス権の提供された制御条件下で得られたと説明しています。テスト環境と実際の企業ネットワークには重要な違いがあります:積極的な防御側や防御ツールがなく、安全警報の発動も罰則を受けません。そのため、Mythos Previewが堅牢な防護システムを突破できるかどうかは確認できません。2年前、最良のAIモデルはほとんど初級のネットワークタスクを完了できませんでした。AISIは、この進歩の速度により、安全評価方法もそれに合わせてアップグレードする必要があると指摘し、今後は積極的な防御とリアルタイム対応の環境で引き続きテストを行う予定です。(出典:BlockBeats)
英国AI安全研究所:Claude Mythos Previewが最初の自律的に32段階の企業ネットワーク攻撃シミュレーションを突破するAI
MEニュース 4月14日(UTC+8)、1M AI Newsの監視によると、英国AI安全研究所(AISI)はClaude Mythos Previewのサイバーセキュリティ能力評価を発表しました。専門家レベルのCTFミッション(2025年4月までにどのモデルも完了できない難易度)で、Mythos Previewの成功率は73%に達しました。AISIはまた、「The Last Ones」(TLO)という32段階の企業ネットワーク攻撃模擬シナリオを構築し、初期偵察からネットワーク全体の完全掌握までの全工程をカバーし、人間が完了するには約20時間かかります。Mythos Previewは初の全工程通過モデルで、10回のテスト中3回完全に完了し、すべての試行の平均完了ステップ数は22ステップです。Claude Opus 4.6は2位で、平均16ステップを完了しました。AISIは、これらの結果は明確な誘導とネットワークアクセス権の提供された制御条件下で得られたと説明しています。テスト環境と実際の企業ネットワークには重要な違いがあります:積極的な防御側や防御ツールがなく、安全警報の発動も罰則を受けません。そのため、Mythos Previewが堅牢な防護システムを突破できるかどうかは確認できません。2年前、最良のAIモデルはほとんど初級のネットワークタスクを完了できませんでした。AISIは、この進歩の速度により、安全評価方法もそれに合わせてアップグレードする必要があると指摘し、今後は積極的な防御とリアルタイム対応の環境で引き続きテストを行う予定です。(出典:BlockBeats)