Review Lengkap Claude Mythos Preview: Benchmark, Arsitektur 10 Triliun Parameter, dan Perbandingan Model

Claude Mythos Preview adalah model paling kuat yang pernah dibuat Anthropic — duduk di tier Capybara yang baru di atas Opus. Dengan perkiraan 10 triliun parameter dalam arsitektur Mixture-of-Experts, model ini mendominasi hampir semua benchmark coding, reasoning, dan keamanan siber.

Artikel ini adalah rangkuman komprehensif dari spesifikasi teknis, skor benchmark, arsitektur, harga, dan perbandingan Claude Mythos Preview dengan model kompetitor seperti GPT-5.4 dan Gemini 3.1 Ultra.

Kisah di Balik Bocornya Mythos

Pada 26 Maret 2026, peneliti keamanan Roy Paz menemukan bahwa sistem manajemen konten Anthropic telah meninggalkan sekitar 3.000 aset internal — termasuk draf blog post tentang model bernama Mythos — dalam penyimpanan data yang dapat diakses publik. Dokumen tersebut menggambarkannya sebagai “model AI paling kuat yang pernah kami buat” dan memperkenalkan tier baru di atas Opus yang dinamai Capybara.

Anthropic mengamankan aset tersebut dalam hitungan jam dan mengkonfirmasi keberadaan model, menyebutnya sebagai “sebuah lompatan besar.” Peluncuran resmi dilakukan pada 7 April bersamaan dengan Project Glasswing.

Tier Capybara: Perubahan Struktural di Lini Model Claude

Sebelum Mythos, hierarki model Claude berjalan: Haiku → Sonnet → Opus. Mythos memperkenalkan tier keempat — Capybara — yang duduk di atas Opus. Ini adalah ekspansi pertama struktur tier Claude sejak desain awalnya.

Tier	Model	Harga per 1M token
Capybara (Baru)	Claude Mythos Preview	$25 input / $125 output
Opus	Claude Opus 4.7	$15 input / $75 output
Sonnet	Claude Sonnet 4.6	$3 input / $15 output
Haiku	Claude Haiku 4.5	$1 input / $5 output

Penting untuk dipahami: Mythos adalah generasi (nama produk), Capybara adalah tier (tingkatan harga/kemampuan). Designasi lengkapnya adalah “Claude Mythos Capybara.”

Arsitektur Model

Meskipun Anthropic tidak secara resmi mengkonfirmasi jumlah parameter, dokumen yang bocor dan analisis komunitas menunjukkan:

Perkiraan 10 triliun total parameter — menjadikannya salah satu model terbesar yang pernah dilatih
Arsitektur Mixture-of-Experts (MoE) — hanya sebagian parameter yang aktif saat inferensi
128–256 expert aktif per token — sebagai perbandingan, GPT-4 diperkirakan memiliki 1,7 triliun parameter dengan arsitektur serupa
Jendela konteks 1 juta token input, dengan output maksimal 128 ribu token
Knowledge cutoff: Desember 2025
System card sepanjang 244 halaman — termasuk bagian penilaian psikiater klinis, pertama kalinya untuk Claude

Benchmark: Mythos vs Opus 4.6

Data benchmark bersumber dari halaman resmi Project Glasswing Anthropic dan model card AWS Bedrock:

Coding

Benchmark	Mythos Preview	Opus 4.6	Selisih
SWE-bench Verified	93.9%	80.8%	+13.1
SWE-bench Pro	77.8%	53.4%	+24.4
SWE-bench Multilingual	87.3%	77.8%	+9.5
SWE-bench Multimodal	59.0%	27.1%	+31.9
Terminal-Bench 2.0	82.0%	65.4%	+16.6

Reasoning

Benchmark	Mythos Preview	Opus 4.6
GPQA Diamond	94.6%	91.3%
Humanity’s Last Exam (no tools)	56.8%	40.0%
Humanity’s Last Exam (with tools)	64.7%	53.1%
USAMO 2026 (Matematika Olimpiade)	97.6%	42.3%

Keamanan Siber

Benchmark	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
Cybench (pass@1)	100%	—

Agentic Search & Computer Use

Benchmark	Mythos Preview	Opus 4.6
BrowseComp	86.9%	83.7%
OSWorld-Verified	79.6%	72.7%

Catatan penting: Pada BrowseComp, Mythos Preview menggunakan 4,9x lebih sedikit token dibanding Opus 4.6 untuk hasil yang setara atau lebih baik — menunjukkan peningkatan arsitektural yang signifikan.

Kemampuan Keamanan Siber yang Mengkhawatirkan

Inilah domain di mana Mythos benar-benar revolusioner. Model ini secara otonom telah:

Menemukan ribuan kerentanan zero-day di setiap sistem operasi utama dan browser web
Menemukan bug berusia 27 tahun di OpenBSD — sistem operasi terkenal dengan keamanan terbaik — yang lolos dari pengawasan manusia selama tiga dekade
Menemukan dan mengeksploitasi CVE-2026-4747 di FreeBSD — kerentanan RCE berusia 17 tahun yang memungkinkan akses root penuh
Menemukan bug berusia 16 tahun di FFmpeg — pada baris kode yang telah diuji oleh alat otomatis 5 juta kali tanpa pernah menangkap masalahnya
Mengembangkan 181 working JavaScript shell exploits di Firefox, sementara Opus 4.6 hanya berhasil 2 kali

Perbandingan: Mythos vs GPT-5.4 vs Gemini 3.1 Ultra

Aspek	Claude Mythos	GPT-5.4	Gemini 3.1 Ultra
SWE-bench Verified	93.9%	71.7%	—
GPQA Diamond	94.6%	—	94.3%
Konteks	1M token	1M token	2M token
Keamanan Siber	Unggul	Standar	Standar
Ketersediaan	Terbatas (Glasswing)	Publik	Publik
Harga input/1M token	$25 (Glasswing)	$2.50	$1.25

Kesimpulan

Claude Mythos Preview adalah lompatan generasional dalam kemampuan AI — terutama di keamanan siber, coding, dan reasoning. Namun, kekuatannya yang luar biasa justru menjadi alasan mengapa model ini tidak bisa diakses publik. Anthropic memperkirakan model setara Mythos akan tersedia luas dalam 6-12 bulan ke depan.

Bagi developer yang membutuhkan kemampuan frontier hari ini, Claude Opus 4.7 tetap menjadi model Claude publik terbaik yang tersedia melalui API.

Sumber

Project Glasswing — Anthropic | Frontier Red Team — Mythos Preview | Build Fast with AI — Claude Mythos 5 Review | SmartChunks — Parameters & Benchmarks | Microsoft Foundry — Model Catalog

Konteks Tambahan untuk Pembaca Indonesia

Berita ini penting karena perkembangan AI global semakin cepat memengaruhi cara orang bekerja, belajar, membuat konten, membangun aplikasi, dan mengambil keputusan bisnis. Untuk pembaca Indonesia, konteks yang perlu diperhatikan bukan hanya siapa perusahaan yang merilis teknologi baru, tetapi juga dampaknya terhadap biaya, akses, regulasi, peluang kerja, dan keamanan data.

Setiap kabar tentang model AI, kebijakan perusahaan besar, investasi, atau regulasi sebaiknya dibaca dengan sikap kritis. Banyak pengumuman teknologi memakai bahasa pemasaran yang terdengar sangat meyakinkan, tetapi belum tentu langsung relevan untuk kebutuhan sehari-hari. Karena itu, pembaca perlu membedakan antara klaim perusahaan, hasil benchmark, pengalaman pengguna, dan bukti penggunaan nyata di lapangan.

Dampak Potensial

Untuk pekerja: AI dapat mempercepat drafting, analisis, coding, riset, dan dokumentasi, tetapi tetap butuh verifikasi manusia.
Untuk bisnis: adopsi AI dapat menekan biaya operasional, namun juga menambah kebutuhan tata kelola data dan keamanan.
Untuk pelajar: AI bisa menjadi tutor personal, tetapi penggunaan yang salah dapat mengurangi kemampuan berpikir mandiri.
Untuk developer: model dan API baru membuka peluang produk baru, tetapi juga menuntut pengujian yang lebih disiplin.

Cara Menyikapi Berita Ini

Jangan langsung mengambil keputusan hanya berdasarkan satu sumber. Bandingkan dengan rilis resmi, laporan media lain, dokumentasi produk, dan pengalaman komunitas. Jika berita menyangkut tools yang ingin digunakan, lakukan uji kecil terlebih dahulu. Catat kualitas hasil, biaya, kecepatan, keamanan, dan keterbatasannya. Pendekatan bertahap seperti ini membuat pembaca lebih siap memanfaatkan AI tanpa terjebak hype.

Konteks Tambahan untuk Pembaca Indonesia

Dampak Potensial

Untuk pekerja: AI dapat mempercepat drafting, analisis, coding, riset, dan dokumentasi, tetapi tetap butuh verifikasi manusia.
Untuk bisnis: adopsi AI dapat menekan biaya operasional, namun juga menambah kebutuhan tata kelola data dan keamanan.
Untuk pelajar: AI bisa menjadi tutor personal, tetapi penggunaan yang salah dapat mengurangi kemampuan berpikir mandiri.
Untuk developer: model dan API baru membuka peluang produk baru, tetapi juga menuntut pengujian yang lebih disiplin.

Cara Menyikapi Berita Ini

Lanjut Belajar AI

Jika artikel ini membantu, lanjutkan ke materi terstruktur agar pemahaman AI lebih rapi dan praktis.

Buka Materi Belajar AI Lihat AI Tools

Review Lengkap Claude Mythos Preview: Benchmark, Arsitektur 10 Triliun Parameter, dan Perbandingan Model

Kisah di Balik Bocornya Mythos

Tier Capybara: Perubahan Struktural di Lini Model Claude

Arsitektur Model