AI Fundamentals Modul 8: LLM vs Reasoning Model, Token, Context, dan Halusinasi
Di artikel ini kita bahas tiga hal yang sering bikin bingung saat belajar AI: beda LLM dan reasoning model, cara kerja token dan context window, serta kenapa model AI bisa halusinasi.
1. Apa Itu LLM?
LLM atau Large Language Model adalah model AI yang dilatih untuk memahami dan menghasilkan bahasa. LLM sangat kuat untuk chat, ringkasan, penulisan, terjemahan, dan coding dasar.
Sebelum masuk ke LLM vs reasoning, ada dua istilah penting yang sering muncul di nama model: parameter dan quantization.
Apa Itu Parameter Model?
Parameter adalah bobot angka yang dipelajari model saat training. Kalau Anda melihat nama model seperti 30B, 70B, atau 235B, huruf B berarti billion alias miliar parameter.
- Semakin besar parameter: model biasanya makin pintar, tapi makin berat dijalankan.
- Semakin kecil parameter: model lebih ringan, tapi kemampuan bisa lebih terbatas.
- Contoh: model 30B lebih ringan daripada 235B, jadi lebih mudah dijalankan di hardware terbatas.
Apa Itu Quantization?
Quantization adalah teknik mengecilkan ukuran model dan menurunkan kebutuhan memori dengan cara menyimpan bobot dalam format yang lebih efisien. Hasilnya, model jadi lebih hemat RAM/VRAM dan lebih mudah dijalankan di laptop, MacBook, atau GPU yang tidak terlalu besar.
- Tanpa quantization: model lebih besar dan lebih berat.
- Dengan quantization: model lebih ringan, kadang sedikit turun kualitasnya, tapi jauh lebih praktis.
- Contoh use case: model besar yang terlalu berat diubah jadi versi quantized agar bisa jalan di L40S 16GB atau laptop biasa.
Contohnya: model yang bisa menjawab pertanyaan, membuat email, merangkum dokumen, atau menjelaskan konsep dengan bahasa awam.
2. Apa Itu Reasoning Model?
Reasoning model adalah model yang lebih fokus pada penalaran bertahap, pemecahan masalah, dan kerja yang butuh langkah logis. Model seperti ini biasanya lebih baik untuk soal rumit, analisis bertingkat, planning, dan tugas yang butuh konsistensi.
Singkatnya: LLM kuat di bahasa, reasoning model kuat di proses berpikir terstruktur.
3. LLM vs Reasoning Model
| Aspek | LLM | Reasoning Model |
|---|---|---|
| Fokus utama | Bahasa dan generasi teks | Penalaran dan langkah logis |
| Contoh tugas | Chat, ringkasan, copywriting | Analisis, problem solving, planning |
| Kelebihan | Fleksibel dan cepat dipakai | Lebih kuat di tugas bertahap |
| Kekurangan | Bisa kurang teliti pada logika rumit | Bisa lebih lambat dan berat |
Di dunia nyata, banyak model modern berada di tengah: tetap LLM, tapi punya kemampuan reasoning yang lebih baik dibanding model generasi lama.
4. Cara Kerja Token
Token adalah potongan teks yang dipakai model untuk membaca dan menulis. Token bisa berupa kata utuh, bagian kata, tanda baca, atau kombinasi pendek. Model tidak membaca kalimat seperti manusia, tetapi memproses token satu per satu.
Kalimat pendek bisa terdiri dari beberapa token, sedangkan kata panjang atau bahasa tertentu bisa menghasilkan token lebih banyak.
5. Apa Itu Context Window?
Context window adalah batas jumlah token yang bisa diingat model dalam satu percakapan atau satu input. Semakin besar context window, semakin banyak informasi yang bisa diproses sekaligus.
- Context kecil: cepat, tapi mudah lupa percakapan lama.
- Context besar: bisa membaca dokumen panjang, tapi lebih berat.
- Kalau context penuh, informasi lama bisa terbuang atau dipadatkan.
6. Kenapa Token dan Context Penting?
- Menentukan seberapa panjang prompt yang bisa dipakai.
- Mempengaruhi biaya API pada model cloud.
- Berpengaruh ke kecepatan dan penggunaan memori.
- Menentukan apakah model bisa membaca dokumen panjang atau tidak.
7. Kenapa Model Bisa Halusinasi?
Halusinasi terjadi saat model mengeluarkan jawaban yang terdengar yakin, tetapi salah atau tidak didukung data. Ini bukan karena model “bohong”, melainkan karena model mencoba memprediksi teks paling mungkin, bukan memastikan kebenaran seperti database.
Model AI tidak benar-benar tahu fakta. Ia belajar pola dari data, lalu menebak jawaban yang paling masuk akal berdasarkan pola itu.
8. Penyebab Umum Halusinasi
- Prompt terlalu umum atau ambigu.
- Context tidak cukup untuk menjawab dengan benar.
- Model dipaksa menjawab saat tidak punya informasi yang memadai.
- Data pelatihan tidak lengkap atau sudah usang.
- Permintaan terlalu kompleks untuk ukuran model yang dipakai.
9. Cara Mengurangi Halusinasi
- Beri prompt yang jelas dan spesifik.
- Minta model menyebutkan jika tidak yakin.
- Gunakan sumber data tambahan atau RAG.
- Verifikasi jawaban penting ke sumber tepercaya.
- Pilih model yang lebih kuat untuk tugas yang rumit.
10. Pengaruh Temperature pada Coding dan Reasoning
Temperature mengatur seberapa berani model memilih kata atau jawaban yang lebih beragam. Parameter ini sangat berpengaruh pada hasil coding dan reasoning.
- Temperature rendah: jawaban lebih stabil, konsisten, dan aman untuk coding atau tugas yang butuh ketelitian.
- Temperature tinggi: jawaban lebih kreatif dan variatif, tetapi risiko salah, ngelantur, atau halusinasi juga naik.
- Untuk coding: biasanya lebih aman memakai temperature rendah supaya output lebih deterministik dan mudah di-review.
- Untuk brainstorming: temperature bisa dinaikkan sedikit supaya ide lebih beragam.
- Untuk reasoning: temperature rendah sering lebih baik karena membantu model tetap fokus ke langkah logis.
Secara praktis, kalau target Anda adalah jawaban akurat, kode yang rapi, atau analisis yang konsisten, pakai temperature rendah. Kalau target Anda ide kreatif, variasi, atau eksplorasi, temperature bisa dinaikkan sedikit.
Skala praktis yang sering dipakai:
- Coding:
0.1 - 0.3 - Reasoning / analisis:
0.2 - 0.5 - Brainstorming / ide kreatif:
0.7 - 1.0
Angka ini bukan aturan mutlak, tapi titik awal yang aman untuk eksperimen. Biasanya makin rendah temperaturnya, makin konsisten hasilnya. Makin tinggi, makin beragam hasilnya.
Kalau temperature lebih dari 1, output biasanya jadi semakin bebas, makin kreatif, dan makin tidak terduga. Ini bisa berguna untuk eksperimen ide, tapi untuk coding atau reasoning sering berisiko karena jawaban bisa lebih berantakan, kurang stabil, atau lebih mudah halusinasi.
11. Contoh Prompt yang Lebih Aman
Jawab hanya jika kamu yakin.
Jika tidak tahu, bilang tidak tahu.
Jelaskan beda LLM dan reasoning model dengan contoh sehari-hari.
Lalu jelaskan token, context window, dan halusinasi secara singkat.
12. Bagaimana Model AI Dilatih?
Model AI biasanya dilatih lewat beberapa tahap. Pertama, model belajar dari data besar seperti teks, kode, gambar, atau audio. Setelah itu, model disesuaikan lagi agar lebih berguna untuk tugas tertentu.
- Pretraining: model belajar pola dasar dari data sangat besar.
- Fine-tuning: model dilatih ulang untuk tugas tertentu, misalnya chat atau coding.
- Instruction tuning: model belajar mengikuti instruksi manusia dengan lebih baik.
- RLHF / preference tuning: model disesuaikan agar jawaban lebih membantu, aman, dan sopan.
Karena model belajar dari pola data, kualitas data latihan sangat memengaruhi hasil. Kalau data jelek atau tidak lengkap, model bisa lebih sering salah atau halusinasi.
13. Besaran Model Berdasarkan Quantization
Ukuran model di disk biasanya bisa diperkirakan dari jumlah parameter dan format quantization. Semakin rendah bit-nya, semakin kecil ukuran file dan semakin ringan dipakai, tetapi kualitas biasanya bisa sedikit turun.
| Format | Perkiraan ukuran per parameter | Karakter |
|---|---|---|
| BF16 / FP16 | 2 byte | Paling besar, kualitas bagus |
| Q8 | 1 byte | Masih besar, kualitas tinggi |
| Q6 | 0.75 byte | Seimbang |
| Q5 | 0.625 byte | Lebih hemat |
| Q4 | 0.5 byte | Populer untuk local AI |
| Q3 | 0.375 byte | Lebih ringan, kualitas turun sedikit |
| Q2 | 0.25 byte | Sangat kecil, kualitas paling rendah |
Contoh kasar: kalau model 30B dijalankan tanpa quantization alias BF16, ukurannya bisa sekitar 60GB. Jika di-quantize ke Q8, kira-kira 30GB. Q4 kira-kira 15GB. Jadi, model 30B Q4 jauh lebih mudah dipakai di GPU 16GB dibanding versi full BF16.
Kalau model sangat besar, misalnya kelas 235B, versi BF16 bisa mencapai sekitar 470GB. Lalu Q8 sekitar 235GB, Q4 sekitar 117GB, dan Q2 sekitar 58GB. Ini hanya estimasi kasar karena ukuran final bisa beda tergantung arsitektur dan format file.
Untuk contoh seperti DeepSeek Pro / model besar sekelas 235B, tanpa quantization ukuran bisa sangat besar dan sulit dipakai di hardware biasa. Setelah dipecah ke Q8, Q6, Q4, atau Q2, ukurannya turun drastis sehingga lebih realistis untuk local run, walau tetap ada trade-off kualitas.
14. Contoh Ukuran Model Populer
Berikut contoh kasar supaya lebih gampang dibayangkan. Ini estimasi file model saja, belum termasuk overhead runtime dan context cache.
| Model | BF16 / FP16 | Q8 | Q6 | Q4 | Q2 |
|---|---|---|---|---|---|
| 7B | 14 GB | 7 GB | 5.25 GB | 3.5 GB | 1.75 GB |
| 14B | 28 GB | 14 GB | 10.5 GB | 7 GB | 3.5 GB |
| 32B | 64 GB | 32 GB | 24 GB | 16 GB | 8 GB |
| 70B | 140 GB | 70 GB | 52.5 GB | 35 GB | 17.5 GB |
| 235B | 470 GB | 235 GB | 176 GB | 117 GB | 58.8 GB |
Artinya, model 7B Q4 biasanya jauh lebih ramah untuk laptop, model 14B Q4 mulai cocok untuk GPU menengah, model 32B Q4 umumnya butuh GPU besar, dan model 70B Q4 sudah masuk kelas server atau multi-GPU.
15. Patokan VRAM GPU
Kalau bicara pemakaian nyata, VRAM yang dibutuhkan biasanya sedikit lebih besar dari ukuran file model karena ada cache, runtime, dan buffer lain.
| Quantization | Contoh model yang umum | VRAM kasar | Keterangan |
|---|---|---|---|
| Q2 | 7B – 14B | 4 – 8 GB | Sangat hemat, kualitas paling turun |
| Q4 | 7B – 32B | 8 – 24 GB | Paling populer untuk local AI |
| Q6 | 7B – 32B | 12 – 32 GB | Lebih stabil dari Q4 |
| Q8 | 7B – 70B | 16 – 80 GB | Kualitas lebih tinggi, butuh VRAM besar |
| BF16 / FP16 | 7B – 70B+ | 20 GB sampai ratusan GB | Biasanya untuk server atau multi-GPU |
Rule of thumb sederhana: kalau GPU Anda 8 GB, target aman biasanya 7B Q4 atau 7B Q5. Kalau 16 GB, seringnya 14B Q4 atau 7B Q8. Kalau 24 GB, 32B Q4 mulai masuk akal. Untuk 70B, biasanya perlu 48 GB ke atas atau dibagi ke beberapa GPU.
Kesimpulan
LLM bagus untuk bahasa, reasoning model lebih kuat untuk penalaran, token adalah unit teks yang diproses model, context window adalah batas ingatan dalam satu sesi, dan halusinasi terjadi karena model menebak jawaban yang terdengar meyakinkan. Kalau paham tiga konsep ini, Anda akan lebih mudah memakai AI dengan benar.
Lanjut Belajar AI
Jika artikel ini membantu, lanjutkan ke materi terstruktur agar pemahaman AI lebih rapi dan praktis.