AI Fundamentals Modul 8: LLM vs Reasoning Model, Token, Context, dan Halusinasi

Di artikel ini kita bahas tiga hal yang sering bikin bingung saat belajar AI: beda LLM dan reasoning model, cara kerja token dan context window, serta kenapa model AI bisa halusinasi.

1. Apa Itu LLM?

LLM atau Large Language Model adalah model AI yang dilatih untuk memahami dan menghasilkan bahasa. LLM sangat kuat untuk chat, ringkasan, penulisan, terjemahan, dan coding dasar.

Sebelum masuk ke LLM vs reasoning, ada dua istilah penting yang sering muncul di nama model: parameter dan quantization.

Apa Itu Parameter Model?

Parameter adalah bobot angka yang dipelajari model saat training. Kalau Anda melihat nama model seperti 30B, 70B, atau 235B, huruf B berarti billion alias miliar parameter.

Semakin besar parameter: model biasanya makin pintar, tapi makin berat dijalankan.
Semakin kecil parameter: model lebih ringan, tapi kemampuan bisa lebih terbatas.
Contoh: model 30B lebih ringan daripada 235B, jadi lebih mudah dijalankan di hardware terbatas.

Apa Itu Quantization?

Quantization adalah teknik mengecilkan ukuran model dan menurunkan kebutuhan memori dengan cara menyimpan bobot dalam format yang lebih efisien. Hasilnya, model jadi lebih hemat RAM/VRAM dan lebih mudah dijalankan di laptop, MacBook, atau GPU yang tidak terlalu besar.

Tanpa quantization: model lebih besar dan lebih berat.
Dengan quantization: model lebih ringan, kadang sedikit turun kualitasnya, tapi jauh lebih praktis.
Contoh use case: model besar yang terlalu berat diubah jadi versi quantized agar bisa jalan di L40S 16GB atau laptop biasa.

Contohnya: model yang bisa menjawab pertanyaan, membuat email, merangkum dokumen, atau menjelaskan konsep dengan bahasa awam.

2. Apa Itu Reasoning Model?

Reasoning model adalah model yang lebih fokus pada penalaran bertahap, pemecahan masalah, dan kerja yang butuh langkah logis. Model seperti ini biasanya lebih baik untuk soal rumit, analisis bertingkat, planning, dan tugas yang butuh konsistensi.

Singkatnya: LLM kuat di bahasa, reasoning model kuat di proses berpikir terstruktur.

3. LLM vs Reasoning Model

Aspek	LLM	Reasoning Model
Fokus utama	Bahasa dan generasi teks	Penalaran dan langkah logis
Contoh tugas	Chat, ringkasan, copywriting	Analisis, problem solving, planning
Kelebihan	Fleksibel dan cepat dipakai	Lebih kuat di tugas bertahap
Kekurangan	Bisa kurang teliti pada logika rumit	Bisa lebih lambat dan berat

Di dunia nyata, banyak model modern berada di tengah: tetap LLM, tapi punya kemampuan reasoning yang lebih baik dibanding model generasi lama.

4. Cara Kerja Token

Token adalah potongan teks yang dipakai model untuk membaca dan menulis. Token bisa berupa kata utuh, bagian kata, tanda baca, atau kombinasi pendek. Model tidak membaca kalimat seperti manusia, tetapi memproses token satu per satu.

Kalimat pendek bisa terdiri dari beberapa token, sedangkan kata panjang atau bahasa tertentu bisa menghasilkan token lebih banyak.

5. Apa Itu Context Window?

Context window adalah batas jumlah token yang bisa diingat model dalam satu percakapan atau satu input. Semakin besar context window, semakin banyak informasi yang bisa diproses sekaligus.

Context kecil: cepat, tapi mudah lupa percakapan lama.
Context besar: bisa membaca dokumen panjang, tapi lebih berat.
Kalau context penuh, informasi lama bisa terbuang atau dipadatkan.

6. Kenapa Token dan Context Penting?

Menentukan seberapa panjang prompt yang bisa dipakai.
Mempengaruhi biaya API pada model cloud.
Berpengaruh ke kecepatan dan penggunaan memori.
Menentukan apakah model bisa membaca dokumen panjang atau tidak.

7. Kenapa Model Bisa Halusinasi?

Halusinasi terjadi saat model mengeluarkan jawaban yang terdengar yakin, tetapi salah atau tidak didukung data. Ini bukan karena model “bohong”, melainkan karena model mencoba memprediksi teks paling mungkin, bukan memastikan kebenaran seperti database.

Model AI tidak benar-benar tahu fakta. Ia belajar pola dari data, lalu menebak jawaban yang paling masuk akal berdasarkan pola itu.

8. Penyebab Umum Halusinasi

Prompt terlalu umum atau ambigu.
Context tidak cukup untuk menjawab dengan benar.
Model dipaksa menjawab saat tidak punya informasi yang memadai.
Data pelatihan tidak lengkap atau sudah usang.
Permintaan terlalu kompleks untuk ukuran model yang dipakai.

9. Cara Mengurangi Halusinasi

Beri prompt yang jelas dan spesifik.
Minta model menyebutkan jika tidak yakin.
Gunakan sumber data tambahan atau RAG.
Verifikasi jawaban penting ke sumber tepercaya.
Pilih model yang lebih kuat untuk tugas yang rumit.

10. Pengaruh Temperature pada Coding dan Reasoning

Temperature mengatur seberapa berani model memilih kata atau jawaban yang lebih beragam. Parameter ini sangat berpengaruh pada hasil coding dan reasoning.

Temperature rendah: jawaban lebih stabil, konsisten, dan aman untuk coding atau tugas yang butuh ketelitian.
Temperature tinggi: jawaban lebih kreatif dan variatif, tetapi risiko salah, ngelantur, atau halusinasi juga naik.
Untuk coding: biasanya lebih aman memakai temperature rendah supaya output lebih deterministik dan mudah di-review.
Untuk brainstorming: temperature bisa dinaikkan sedikit supaya ide lebih beragam.
Untuk reasoning: temperature rendah sering lebih baik karena membantu model tetap fokus ke langkah logis.

Secara praktis, kalau target Anda adalah jawaban akurat, kode yang rapi, atau analisis yang konsisten, pakai temperature rendah. Kalau target Anda ide kreatif, variasi, atau eksplorasi, temperature bisa dinaikkan sedikit.

Skala praktis yang sering dipakai:

Coding: 0.1 - 0.3
Reasoning / analisis: 0.2 - 0.5
Brainstorming / ide kreatif: 0.7 - 1.0

Angka ini bukan aturan mutlak, tapi titik awal yang aman untuk eksperimen. Biasanya makin rendah temperaturnya, makin konsisten hasilnya. Makin tinggi, makin beragam hasilnya.

Kalau temperature lebih dari 1, output biasanya jadi semakin bebas, makin kreatif, dan makin tidak terduga. Ini bisa berguna untuk eksperimen ide, tapi untuk coding atau reasoning sering berisiko karena jawaban bisa lebih berantakan, kurang stabil, atau lebih mudah halusinasi.

11. Contoh Prompt yang Lebih Aman

Jawab hanya jika kamu yakin.
Jika tidak tahu, bilang tidak tahu.
Jelaskan beda LLM dan reasoning model dengan contoh sehari-hari.
Lalu jelaskan token, context window, dan halusinasi secara singkat.

12. Bagaimana Model AI Dilatih?

Model AI biasanya dilatih lewat beberapa tahap. Pertama, model belajar dari data besar seperti teks, kode, gambar, atau audio. Setelah itu, model disesuaikan lagi agar lebih berguna untuk tugas tertentu.

Pretraining: model belajar pola dasar dari data sangat besar.
Fine-tuning: model dilatih ulang untuk tugas tertentu, misalnya chat atau coding.
Instruction tuning: model belajar mengikuti instruksi manusia dengan lebih baik.
RLHF / preference tuning: model disesuaikan agar jawaban lebih membantu, aman, dan sopan.

Karena model belajar dari pola data, kualitas data latihan sangat memengaruhi hasil. Kalau data jelek atau tidak lengkap, model bisa lebih sering salah atau halusinasi.

13. Besaran Model Berdasarkan Quantization

Ukuran model di disk biasanya bisa diperkirakan dari jumlah parameter dan format quantization. Semakin rendah bit-nya, semakin kecil ukuran file dan semakin ringan dipakai, tetapi kualitas biasanya bisa sedikit turun.

Format	Perkiraan ukuran per parameter	Karakter
BF16 / FP16	2 byte	Paling besar, kualitas bagus
Q8	1 byte	Masih besar, kualitas tinggi
Q6	0.75 byte	Seimbang
Q5	0.625 byte	Lebih hemat
Q4	0.5 byte	Populer untuk local AI
Q3	0.375 byte	Lebih ringan, kualitas turun sedikit
Q2	0.25 byte	Sangat kecil, kualitas paling rendah

Contoh kasar: kalau model 30B dijalankan tanpa quantization alias BF16, ukurannya bisa sekitar 60GB. Jika di-quantize ke Q8, kira-kira 30GB. Q4 kira-kira 15GB. Jadi, model 30B Q4 jauh lebih mudah dipakai di GPU 16GB dibanding versi full BF16.

Kalau model sangat besar, misalnya kelas 235B, versi BF16 bisa mencapai sekitar 470GB. Lalu Q8 sekitar 235GB, Q4 sekitar 117GB, dan Q2 sekitar 58GB. Ini hanya estimasi kasar karena ukuran final bisa beda tergantung arsitektur dan format file.

Untuk contoh seperti DeepSeek Pro / model besar sekelas 235B, tanpa quantization ukuran bisa sangat besar dan sulit dipakai di hardware biasa. Setelah dipecah ke Q8, Q6, Q4, atau Q2, ukurannya turun drastis sehingga lebih realistis untuk local run, walau tetap ada trade-off kualitas.

14. Contoh Ukuran Model Populer

Berikut contoh kasar supaya lebih gampang dibayangkan. Ini estimasi file model saja, belum termasuk overhead runtime dan context cache.

Model	BF16 / FP16	Q8	Q6	Q4	Q2
7B	14 GB	7 GB	5.25 GB	3.5 GB	1.75 GB
14B	28 GB	14 GB	10.5 GB	7 GB	3.5 GB
32B	64 GB	32 GB	24 GB	16 GB	8 GB
70B	140 GB	70 GB	52.5 GB	35 GB	17.5 GB
235B	470 GB	235 GB	176 GB	117 GB	58.8 GB

Artinya, model 7B Q4 biasanya jauh lebih ramah untuk laptop, model 14B Q4 mulai cocok untuk GPU menengah, model 32B Q4 umumnya butuh GPU besar, dan model 70B Q4 sudah masuk kelas server atau multi-GPU.

15. Patokan VRAM GPU

Kalau bicara pemakaian nyata, VRAM yang dibutuhkan biasanya sedikit lebih besar dari ukuran file model karena ada cache, runtime, dan buffer lain.

Quantization	Contoh model yang umum	VRAM kasar	Keterangan
Q2	7B – 14B	4 – 8 GB	Sangat hemat, kualitas paling turun
Q4	7B – 32B	8 – 24 GB	Paling populer untuk local AI
Q6	7B – 32B	12 – 32 GB	Lebih stabil dari Q4
Q8	7B – 70B	16 – 80 GB	Kualitas lebih tinggi, butuh VRAM besar
BF16 / FP16	7B – 70B+	20 GB sampai ratusan GB	Biasanya untuk server atau multi-GPU

Rule of thumb sederhana: kalau GPU Anda 8 GB, target aman biasanya 7B Q4 atau 7B Q5. Kalau 16 GB, seringnya 14B Q4 atau 7B Q8. Kalau 24 GB, 32B Q4 mulai masuk akal. Untuk 70B, biasanya perlu 48 GB ke atas atau dibagi ke beberapa GPU.

Kesimpulan

LLM bagus untuk bahasa, reasoning model lebih kuat untuk penalaran, token adalah unit teks yang diproses model, context window adalah batas ingatan dalam satu sesi, dan halusinasi terjadi karena model menebak jawaban yang terdengar meyakinkan. Kalau paham tiga konsep ini, Anda akan lebih mudah memakai AI dengan benar.

Lanjut Belajar AI

Jika artikel ini membantu, lanjutkan ke materi terstruktur agar pemahaman AI lebih rapi dan praktis.

Buka Materi Belajar AI Lihat AI Tools

AI Fundamentals Modul 8: LLM vs Reasoning Model, Token, Context, dan Halusinasi

1. Apa Itu LLM?

Apa Itu Parameter Model?

Apa Itu Quantization?

2. Apa Itu Reasoning Model?

3. LLM vs Reasoning Model

4. Cara Kerja Token

5. Apa Itu Context Window?

6. Kenapa Token dan Context Penting?

7. Kenapa Model Bisa Halusinasi?

8. Penyebab Umum Halusinasi

9. Cara Mengurangi Halusinasi

10. Pengaruh Temperature pada Coding dan Reasoning

11. Contoh Prompt yang Lebih Aman

12. Bagaimana Model AI Dilatih?

13. Besaran Model Berdasarkan Quantization

14. Contoh Ukuran Model Populer

15. Patokan VRAM GPU

Kesimpulan

Lanjut Belajar AI

AI Fundamentals Modul 7: Apa Itu AI Model? Jenis Model, Penyedia Populer, dan Komunitas Gratis

AI Fundamentals Modul 2: Praktik Memakai AI untuk Brainstorming dan Tugas Harian

AI Fundamentals Modul 3: Cara Kerja AI dan Batasannya dengan Bahasa Awam

Agent dan Multi-Agent Coding: Cara AI Bekerja sebagai Tim Developer

AI Fundamentals Modul 5: Prompt Chaining dan Membuat Visual dengan AI

AI Fundamentals Modul 6: Responsible AI, Human-in-the-Loop, dan AI Agents

Leave a Reply Cancel reply

1. Apa Itu LLM?

Apa Itu Parameter Model?

Apa Itu Quantization?

2. Apa Itu Reasoning Model?

3. LLM vs Reasoning Model

4. Cara Kerja Token

5. Apa Itu Context Window?

6. Kenapa Token dan Context Penting?

7. Kenapa Model Bisa Halusinasi?

8. Penyebab Umum Halusinasi

9. Cara Mengurangi Halusinasi

10. Pengaruh Temperature pada Coding dan Reasoning

11. Contoh Prompt yang Lebih Aman

12. Bagaimana Model AI Dilatih?

13. Besaran Model Berdasarkan Quantization

14. Contoh Ukuran Model Populer

15. Patokan VRAM GPU

Kesimpulan

Lanjut Belajar AI

Similar Posts

Leave a Reply Cancel reply