Claude Mythos Mampu Kembangkan Eksploit Keamanan Secara End-to-End, Ungkap Riset Anthropic
Disclosure: artikel ini dapat memuat rekomendasi tools atau tautan afiliasi/sponsor di masa depan. Baca disclosure afiliasi.
Anthropic, melalui tim red team mereka, merilis temuan terbaru yang mengukur kemampuan model AI generasi terbaru mereka, Claude Mythos Preview, dalam mengembangkan eksploit keamanan secara otonom. Hasilnya menunjukkan lompatan signifikan dibanding model-model sebelumnya.
Dalam riset yang dipublikasikan pada 22 Mei 2026, tim peneliti Newton Cheng, Keane Lucas, Winnie Xiao, Nicholas Carlini, dan Milad Nasr menemukan bahwa Claude Mythos Preview mampu menemukan kerentanan kompleks dan mengubahnya menjadi exploit primitives, lalu menggabungkannya menjadi rantai serangan end-to-end yang lengkap.
Kemampuan ini menjadi alasan utama Anthropic merilis model tersebut secara hati-hati melalui program Project Glasswing, bukan melalui rilis umum.

Tiga Tolak Ukur Eksploitasi
Riset ini menggunakan tiga benchmark utama untuk mengukur kemampuan eksploitasi model AI secara kuantitatif.
1. ExploitBench: Kerentanan V8
Dikembangkan oleh Seunghyun Lee dan Prof. David Brumley dari Carnegie Mellon University dan Bugcrowd, ExploitBench mengukur kemampuan model menulis eksploit end-to-end untuk 41 kerentanan V8 JavaScript dan WebAssembly engine. V8 digunakan secara luas di Chrome, Edge, Android WebView, Node.js, dan aplikasi Electron seperti VS Code, Slack, dan Discord.
ExploitBench membagi proses pengembangan eksploit menjadi 16 kemampuan dalam lima tingkatan: Coverage (menjangkau jalur rentan), Reproduction (proof-of-concept), Target Primitives (primitif di dalam sandbox V8), Generic Primitives (menembus sandbox), dan Full Control (arbitrary code execution).
Hasilnya, Mythos Preview adalah satu-satunya model yang dapat menembus sandbox V8 (T2) secara konsisten — mencapai ACE pada 21 dari 41 CVE. Model lain bahkan tidak mencapai satu pun ACE dalam pengujian yang sama.

2. ExploitGym: Lintas Platform
ExploitGym, hasil kolaborasi UC Berkeley, Max Planck Institute for Security and Privacy, UC Santa Barbara, dan Arizona State University, menguji model terhadap 898 kerentanan yang sudah ditambal di berbagai proyek OSS-Fuzz, V8 engine, dan kernel Linux.
Dalam batas waktu dua jam, Mythos Preview berhasil mendapatkan eksekusi kode tidak sah pada 157 tugas menggunakan kerentanan yang dimaksud, dan total 226 flag berhasil ditangkap. Sebagai perbandingan, Claude Opus 4.6 hanya mencapai 15 keberhasilan.


3. SCONE-bench: Smart Contract
Dalam benchmark smart contract yang diperbarui dengan 12 eksploit yang dilaporkan setelah knowledge cutoff semua model (Januari 2026), Mythos Preview berhasil mengeksploitasi kerentanan senilai $35 juta — 75% lebih tinggi dibanding model terdekat berikutnya.
Mythos Preview adalah satu-satunya model yang berhasil mengeksploitasi setiap kerentanan yang diuji. Tingkat pertumbuhan kemampuan model mengikuti tren log-linear dengan waktu penggandaan rata-rata 0,7 bulan — semakin cepat dari sebelumnya yang 1,1 bulan.

Implikasi dan Langkah Antisipasi
Para peneliti memperkirakan model setingkat Mythos akan tersedia secara luas dalam 6-12 bulan ke depan. Ketika itu terjadi, pengembangan eksploit akan membutuhkan lebih sedikit keahlian khusus dan menjadi semakin terkomoditisasi.
“Biaya dari salah memperkirakan kemampuan model akan terus meningkat seiring kemampuan model yang semakin canggih,” tulis tim peneliti. “Menjawab tantangan ini membutuhkan profil kemampuan yang presisi dan komprehensif, yang pada gilirannya membutuhkan pengembangan benchmark publik berkualitas tinggi.”
Anthropic telah mengambil beberapa langkah antisipatif:
- Project Glasswing — Mendukung para defender siber dengan akses khusus ke model untuk mengamankan infrastruktur mereka
- Cyber Verification Program — Pemblokiran agresif terhadap ancaman siber potensial tanpa menghalangi pengguna legitimate
- Open source SCONE-bench — Dataset dan harness untuk benchmark smart contract telah dirilis di GitHub
Sumber
Artikel asli: “Measuring LLMs’ ability to develop exploits” — red.anthropic.com, 22 Mei 2026 oleh Newton Cheng, Keane Lucas, Winnie Xiao, Nicholas Carlini, dan Milad Nasr.
Konteks Tambahan untuk Pembaca Indonesia
Berita ini penting karena perkembangan AI global semakin cepat memengaruhi cara orang bekerja, belajar, membuat konten, membangun aplikasi, dan mengambil keputusan bisnis. Untuk pembaca Indonesia, konteks yang perlu diperhatikan bukan hanya siapa perusahaan yang merilis teknologi baru, tetapi juga dampaknya terhadap biaya, akses, regulasi, peluang kerja, dan keamanan data.
Setiap kabar tentang model AI, kebijakan perusahaan besar, investasi, atau regulasi sebaiknya dibaca dengan sikap kritis. Banyak pengumuman teknologi memakai bahasa pemasaran yang terdengar sangat meyakinkan, tetapi belum tentu langsung relevan untuk kebutuhan sehari-hari. Karena itu, pembaca perlu membedakan antara klaim perusahaan, hasil benchmark, pengalaman pengguna, dan bukti penggunaan nyata di lapangan.
Dampak Potensial
- Untuk pekerja: AI dapat mempercepat drafting, analisis, coding, riset, dan dokumentasi, tetapi tetap butuh verifikasi manusia.
- Untuk bisnis: adopsi AI dapat menekan biaya operasional, namun juga menambah kebutuhan tata kelola data dan keamanan.
- Untuk pelajar: AI bisa menjadi tutor personal, tetapi penggunaan yang salah dapat mengurangi kemampuan berpikir mandiri.
- Untuk developer: model dan API baru membuka peluang produk baru, tetapi juga menuntut pengujian yang lebih disiplin.
Cara Menyikapi Berita Ini
Jangan langsung mengambil keputusan hanya berdasarkan satu sumber. Bandingkan dengan rilis resmi, laporan media lain, dokumentasi produk, dan pengalaman komunitas. Jika berita menyangkut tools yang ingin digunakan, lakukan uji kecil terlebih dahulu. Catat kualitas hasil, biaya, kecepatan, keamanan, dan keterbatasannya. Pendekatan bertahap seperti ini membuat pembaca lebih siap memanfaatkan AI tanpa terjebak hype.
Konteks Tambahan untuk Pembaca Indonesia
Berita ini penting karena perkembangan AI global semakin cepat memengaruhi cara orang bekerja, belajar, membuat konten, membangun aplikasi, dan mengambil keputusan bisnis. Untuk pembaca Indonesia, konteks yang perlu diperhatikan bukan hanya siapa perusahaan yang merilis teknologi baru, tetapi juga dampaknya terhadap biaya, akses, regulasi, peluang kerja, dan keamanan data.
Setiap kabar tentang model AI, kebijakan perusahaan besar, investasi, atau regulasi sebaiknya dibaca dengan sikap kritis. Banyak pengumuman teknologi memakai bahasa pemasaran yang terdengar sangat meyakinkan, tetapi belum tentu langsung relevan untuk kebutuhan sehari-hari. Karena itu, pembaca perlu membedakan antara klaim perusahaan, hasil benchmark, pengalaman pengguna, dan bukti penggunaan nyata di lapangan.
Dampak Potensial
- Untuk pekerja: AI dapat mempercepat drafting, analisis, coding, riset, dan dokumentasi, tetapi tetap butuh verifikasi manusia.
- Untuk bisnis: adopsi AI dapat menekan biaya operasional, namun juga menambah kebutuhan tata kelola data dan keamanan.
- Untuk pelajar: AI bisa menjadi tutor personal, tetapi penggunaan yang salah dapat mengurangi kemampuan berpikir mandiri.
- Untuk developer: model dan API baru membuka peluang produk baru, tetapi juga menuntut pengujian yang lebih disiplin.
Cara Menyikapi Berita Ini
Jangan langsung mengambil keputusan hanya berdasarkan satu sumber. Bandingkan dengan rilis resmi, laporan media lain, dokumentasi produk, dan pengalaman komunitas. Jika berita menyangkut tools yang ingin digunakan, lakukan uji kecil terlebih dahulu. Catat kualitas hasil, biaya, kecepatan, keamanan, dan keterbatasannya. Pendekatan bertahap seperti ini membuat pembaca lebih siap memanfaatkan AI tanpa terjebak hype.
Konteks Tambahan untuk Pembaca Indonesia
Berita ini penting karena perkembangan AI global semakin cepat memengaruhi cara orang bekerja, belajar, membuat konten, membangun aplikasi, dan mengambil keputusan bisnis. Untuk pembaca Indonesia, konteks yang perlu diperhatikan bukan hanya siapa perusahaan yang merilis teknologi baru, tetapi juga dampaknya terhadap biaya, akses, regulasi, peluang kerja, dan keamanan data.
Setiap kabar tentang model AI, kebijakan perusahaan besar, investasi, atau regulasi sebaiknya dibaca dengan sikap kritis. Banyak pengumuman teknologi memakai bahasa pemasaran yang terdengar sangat meyakinkan, tetapi belum tentu langsung relevan untuk kebutuhan sehari-hari. Karena itu, pembaca perlu membedakan antara klaim perusahaan, hasil benchmark, pengalaman pengguna, dan bukti penggunaan nyata di lapangan.
Dampak Potensial
- Untuk pekerja: AI dapat mempercepat drafting, analisis, coding, riset, dan dokumentasi, tetapi tetap butuh verifikasi manusia.
- Untuk bisnis: adopsi AI dapat menekan biaya operasional, namun juga menambah kebutuhan tata kelola data dan keamanan.
- Untuk pelajar: AI bisa menjadi tutor personal, tetapi penggunaan yang salah dapat mengurangi kemampuan berpikir mandiri.
- Untuk developer: model dan API baru membuka peluang produk baru, tetapi juga menuntut pengujian yang lebih disiplin.
Cara Menyikapi Berita Ini
Jangan langsung mengambil keputusan hanya berdasarkan satu sumber. Bandingkan dengan rilis resmi, laporan media lain, dokumentasi produk, dan pengalaman komunitas. Jika berita menyangkut tools yang ingin digunakan, lakukan uji kecil terlebih dahulu. Catat kualitas hasil, biaya, kecepatan, keamanan, dan keterbatasannya. Pendekatan bertahap seperti ini membuat pembaca lebih siap memanfaatkan AI tanpa terjebak hype.
Lanjut Belajar AI
Jika artikel ini membantu, lanjutkan ke materi terstruktur agar pemahaman AI lebih rapi dan praktis.