Review Lengkap Claude Mythos Preview: Benchmark, Arsitektur 10 Triliun Parameter, dan Perbandingan Model
Claude Mythos Preview adalah model paling kuat yang pernah dibuat Anthropic — duduk di tier Capybara yang baru di atas Opus. Dengan perkiraan 10 triliun parameter dalam arsitektur Mixture-of-Experts, model ini mendominasi hampir semua benchmark coding, reasoning, dan keamanan siber.
Artikel ini adalah rangkuman komprehensif dari spesifikasi teknis, skor benchmark, arsitektur, harga, dan perbandingan Claude Mythos Preview dengan model kompetitor seperti GPT-5.4 dan Gemini 3.1 Ultra.
Kisah di Balik Bocornya Mythos
Pada 26 Maret 2026, peneliti keamanan Roy Paz menemukan bahwa sistem manajemen konten Anthropic telah meninggalkan sekitar 3.000 aset internal — termasuk draf blog post tentang model bernama Mythos — dalam penyimpanan data yang dapat diakses publik. Dokumen tersebut menggambarkannya sebagai “model AI paling kuat yang pernah kami buat” dan memperkenalkan tier baru di atas Opus yang dinamai Capybara.
Anthropic mengamankan aset tersebut dalam hitungan jam dan mengkonfirmasi keberadaan model, menyebutnya sebagai “sebuah lompatan besar.” Peluncuran resmi dilakukan pada 7 April bersamaan dengan Project Glasswing.
Tier Capybara: Perubahan Struktural di Lini Model Claude
Sebelum Mythos, hierarki model Claude berjalan: Haiku → Sonnet → Opus. Mythos memperkenalkan tier keempat — Capybara — yang duduk di atas Opus. Ini adalah ekspansi pertama struktur tier Claude sejak desain awalnya.
| Tier | Model | Harga per 1M token |
|---|---|---|
| Capybara (Baru) | Claude Mythos Preview | $25 input / $125 output |
| Opus | Claude Opus 4.7 | $15 input / $75 output |
| Sonnet | Claude Sonnet 4.6 | $3 input / $15 output |
| Haiku | Claude Haiku 4.5 | $1 input / $5 output |
Penting untuk dipahami: Mythos adalah generasi (nama produk), Capybara adalah tier (tingkatan harga/kemampuan). Designasi lengkapnya adalah “Claude Mythos Capybara.”
Arsitektur Model
Meskipun Anthropic tidak secara resmi mengkonfirmasi jumlah parameter, dokumen yang bocor dan analisis komunitas menunjukkan:
- Perkiraan 10 triliun total parameter — menjadikannya salah satu model terbesar yang pernah dilatih
- Arsitektur Mixture-of-Experts (MoE) — hanya sebagian parameter yang aktif saat inferensi
- 128–256 expert aktif per token — sebagai perbandingan, GPT-4 diperkirakan memiliki 1,7 triliun parameter dengan arsitektur serupa
- Jendela konteks 1 juta token input, dengan output maksimal 128 ribu token
- Knowledge cutoff: Desember 2025
- System card sepanjang 244 halaman — termasuk bagian penilaian psikiater klinis, pertama kalinya untuk Claude
Benchmark: Mythos vs Opus 4.6
Data benchmark bersumber dari halaman resmi Project Glasswing Anthropic dan model card AWS Bedrock:
Coding
| Benchmark | Mythos Preview | Opus 4.6 | Selisih |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1 |
| SWE-bench Pro | 77.8% | 53.4% | +24.4 |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5 |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9 |
| Terminal-Bench 2.0 | 82.0% | 65.4% | +16.6 |
Reasoning
| Benchmark | Mythos Preview | Opus 4.6 |
|---|---|---|
| GPQA Diamond | 94.6% | 91.3% |
| Humanity’s Last Exam (no tools) | 56.8% | 40.0% |
| Humanity’s Last Exam (with tools) | 64.7% | 53.1% |
| USAMO 2026 (Matematika Olimpiade) | 97.6% | 42.3% |
Keamanan Siber
| Benchmark | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym | 83.1% | 66.6% |
| Cybench (pass@1) | 100% | — |
Agentic Search & Computer Use
| Benchmark | Mythos Preview | Opus 4.6 |
|---|---|---|
| BrowseComp | 86.9% | 83.7% |
| OSWorld-Verified | 79.6% | 72.7% |
Catatan penting: Pada BrowseComp, Mythos Preview menggunakan 4,9x lebih sedikit token dibanding Opus 4.6 untuk hasil yang setara atau lebih baik — menunjukkan peningkatan arsitektural yang signifikan.
Kemampuan Keamanan Siber yang Mengkhawatirkan
Inilah domain di mana Mythos benar-benar revolusioner. Model ini secara otonom telah:
- Menemukan ribuan kerentanan zero-day di setiap sistem operasi utama dan browser web
- Menemukan bug berusia 27 tahun di OpenBSD — sistem operasi terkenal dengan keamanan terbaik — yang lolos dari pengawasan manusia selama tiga dekade
- Menemukan dan mengeksploitasi CVE-2026-4747 di FreeBSD — kerentanan RCE berusia 17 tahun yang memungkinkan akses root penuh
- Menemukan bug berusia 16 tahun di FFmpeg — pada baris kode yang telah diuji oleh alat otomatis 5 juta kali tanpa pernah menangkap masalahnya
- Mengembangkan 181 working JavaScript shell exploits di Firefox, sementara Opus 4.6 hanya berhasil 2 kali
Perbandingan: Mythos vs GPT-5.4 vs Gemini 3.1 Ultra
| Aspek | Claude Mythos | GPT-5.4 | Gemini 3.1 Ultra |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 71.7% | — |
| GPQA Diamond | 94.6% | — | 94.3% |
| Konteks | 1M token | 1M token | 2M token |
| Keamanan Siber | Unggul | Standar | Standar |
| Ketersediaan | Terbatas (Glasswing) | Publik | Publik |
| Harga input/1M token | $25 (Glasswing) | $2.50 | $1.25 |
Kesimpulan
Claude Mythos Preview adalah lompatan generasional dalam kemampuan AI — terutama di keamanan siber, coding, dan reasoning. Namun, kekuatannya yang luar biasa justru menjadi alasan mengapa model ini tidak bisa diakses publik. Anthropic memperkirakan model setara Mythos akan tersedia luas dalam 6-12 bulan ke depan.
Bagi developer yang membutuhkan kemampuan frontier hari ini, Claude Opus 4.7 tetap menjadi model Claude publik terbaik yang tersedia melalui API.
Sumber
Project Glasswing — Anthropic | Frontier Red Team — Mythos Preview | Build Fast with AI — Claude Mythos 5 Review | SmartChunks — Parameters & Benchmarks | Microsoft Foundry — Model Catalog
Konteks Tambahan untuk Pembaca Indonesia
Berita ini penting karena perkembangan AI global semakin cepat memengaruhi cara orang bekerja, belajar, membuat konten, membangun aplikasi, dan mengambil keputusan bisnis. Untuk pembaca Indonesia, konteks yang perlu diperhatikan bukan hanya siapa perusahaan yang merilis teknologi baru, tetapi juga dampaknya terhadap biaya, akses, regulasi, peluang kerja, dan keamanan data.
Setiap kabar tentang model AI, kebijakan perusahaan besar, investasi, atau regulasi sebaiknya dibaca dengan sikap kritis. Banyak pengumuman teknologi memakai bahasa pemasaran yang terdengar sangat meyakinkan, tetapi belum tentu langsung relevan untuk kebutuhan sehari-hari. Karena itu, pembaca perlu membedakan antara klaim perusahaan, hasil benchmark, pengalaman pengguna, dan bukti penggunaan nyata di lapangan.
Dampak Potensial
- Untuk pekerja: AI dapat mempercepat drafting, analisis, coding, riset, dan dokumentasi, tetapi tetap butuh verifikasi manusia.
- Untuk bisnis: adopsi AI dapat menekan biaya operasional, namun juga menambah kebutuhan tata kelola data dan keamanan.
- Untuk pelajar: AI bisa menjadi tutor personal, tetapi penggunaan yang salah dapat mengurangi kemampuan berpikir mandiri.
- Untuk developer: model dan API baru membuka peluang produk baru, tetapi juga menuntut pengujian yang lebih disiplin.
Cara Menyikapi Berita Ini
Jangan langsung mengambil keputusan hanya berdasarkan satu sumber. Bandingkan dengan rilis resmi, laporan media lain, dokumentasi produk, dan pengalaman komunitas. Jika berita menyangkut tools yang ingin digunakan, lakukan uji kecil terlebih dahulu. Catat kualitas hasil, biaya, kecepatan, keamanan, dan keterbatasannya. Pendekatan bertahap seperti ini membuat pembaca lebih siap memanfaatkan AI tanpa terjebak hype.
Konteks Tambahan untuk Pembaca Indonesia
Berita ini penting karena perkembangan AI global semakin cepat memengaruhi cara orang bekerja, belajar, membuat konten, membangun aplikasi, dan mengambil keputusan bisnis. Untuk pembaca Indonesia, konteks yang perlu diperhatikan bukan hanya siapa perusahaan yang merilis teknologi baru, tetapi juga dampaknya terhadap biaya, akses, regulasi, peluang kerja, dan keamanan data.
Setiap kabar tentang model AI, kebijakan perusahaan besar, investasi, atau regulasi sebaiknya dibaca dengan sikap kritis. Banyak pengumuman teknologi memakai bahasa pemasaran yang terdengar sangat meyakinkan, tetapi belum tentu langsung relevan untuk kebutuhan sehari-hari. Karena itu, pembaca perlu membedakan antara klaim perusahaan, hasil benchmark, pengalaman pengguna, dan bukti penggunaan nyata di lapangan.
Dampak Potensial
- Untuk pekerja: AI dapat mempercepat drafting, analisis, coding, riset, dan dokumentasi, tetapi tetap butuh verifikasi manusia.
- Untuk bisnis: adopsi AI dapat menekan biaya operasional, namun juga menambah kebutuhan tata kelola data dan keamanan.
- Untuk pelajar: AI bisa menjadi tutor personal, tetapi penggunaan yang salah dapat mengurangi kemampuan berpikir mandiri.
- Untuk developer: model dan API baru membuka peluang produk baru, tetapi juga menuntut pengujian yang lebih disiplin.
Cara Menyikapi Berita Ini
Jangan langsung mengambil keputusan hanya berdasarkan satu sumber. Bandingkan dengan rilis resmi, laporan media lain, dokumentasi produk, dan pengalaman komunitas. Jika berita menyangkut tools yang ingin digunakan, lakukan uji kecil terlebih dahulu. Catat kualitas hasil, biaya, kecepatan, keamanan, dan keterbatasannya. Pendekatan bertahap seperti ini membuat pembaca lebih siap memanfaatkan AI tanpa terjebak hype.
Lanjut Belajar AI
Jika artikel ini membantu, lanjutkan ke materi terstruktur agar pemahaman AI lebih rapi dan praktis.