Tutorial Install Qwen3.5:latest di Ubuntu 22.04 dengan vGPU Nvidia L40S 16GB
Disclosure: artikel ini dapat memuat rekomendasi tools atau tautan afiliasi/sponsor di masa depan. Baca disclosure afiliasi.
Tutorial Install Qwen3.5:latest di Ubuntu 22.04 dengan vGPU Nvidia L40S 16GB
Artikel ini membahas cara menjalankan qwen3.5:latest lewat Ollama di Ubuntu 22.04 dengan dukungan vGPU Nvidia L40S 16GB, RAM 32GB, dan storage 200GB.
1. Cek Kesiapan Sistem
- Cek GPU dengan
nvidia-smi. - Cek RAM dengan
free -h. - Cek storage dengan
df -h.
2. Install Driver NVIDIA Jika Belum Ada
- Jalankan
sudo apt update. - Lihat driver yang direkomendasikan dengan
sudo ubuntu-drivers devices. - Install otomatis dengan
sudo ubuntu-drivers autoinstall. - Reboot server jika perlu.
3. Install Ollama
Install Ollama dari halaman resmi ollama.com/download. Setelah selesai, pastikan service aktif dengan systemctl status ollama.
4. Download dan Jalankan Model
- Download model:
ollama pull qwen3.5:latest - Jalankan model:
ollama run qwen3.5:latest
5. Cek Model yang Sudah Di-download
Untuk menampilkan model yang sudah ada di mesin Anda, jalankan ollama ls. Pada beberapa versi Ollama, perintah yang umum dipakai adalah ollama list.
6. Cek Model yang Sedang Berjalan
Untuk melihat model yang sedang aktif, jalankan ollama ps.
7. Ilustrasi Alur Ollama
Setelah Ollama terpasang, jalankan perintah ollama di terminal. Biasanya akan muncul tampilan interaktif dengan menu seperti Chat with a model dan daftar model yang tersedia. Jika Anda memasang lebih dari satu model, model lokal atau model cloud yang didukung bisa tampil di daftar itu sesuai instalasi dan ketentuan masing-masing, termasuk model gratis yang punya batasan pemakaian.
- Jalankan
ollamauntuk membuka menu interaktif. - Pilih salah satu model dari daftar.
- Ketik pesan seperti
haloo apakabar. - Model akan merespons di terminal.
- Gunakan
ollama lsuntuk melihat model yang sudah di-download danollama psuntuk melihat model yang sedang berjalan.
Contoh tampilan respon Ollama:

8. Tips Tuning untuk L40S 16GB
- Gunakan satu model utama dulu.
- Jaga storage tetap lega.
- Batasi model aktif jika perlu dengan
OLLAMA_MAX_LOADED_MODELS=1. - Fokus ke stabilitas sebelum mengejar ukuran model yang lebih besar.
9. Korelasi Ukuran Model dan GPU
Ukuran file model di disk dan kebutuhan VRAM GPU itu tidak selalu sama, tetapi umumnya berkaitan. Makin besar model, makin besar pula beban memori saat dijalankan. Karena itu, L40S 16GB lebih aman untuk model kecil sampai menengah, terutama jika model sudah di-quantize.
- Model kecil: biasanya paling lancar di GPU terbatas dan cepat untuk chat harian.
- Model menengah: cocok untuk L40S 16GB jika tidak membuka banyak model bersamaan.
- Model besar: bisa butuh VRAM lebih dari 16GB atau perlu quantization agar muat.
- File model di disk: makin besar ukuran file, makin besar juga kebutuhan storage untuk download, cache, dan update.
Aturan praktisnya: kalau VRAM GPU penuh, model akan melambat atau gagal jalan. Kalau storage sempit, model mungkin tidak bisa diunduh atau disimpan dengan nyaman.
10. Kapan Setup Ini Cocok?
- Belajar model lokal di Ubuntu.
- Server internal yang butuh AI privat.
- Coding assistant offline yang ringan.
- Eksperimen workflow AI tanpa biaya API cloud.
Kesimpulan
Dengan Ubuntu 22.04, vGPU Nvidia L40S 16GB, RAM 32GB, dan storage 200GB, Anda sudah punya basis yang bagus untuk menjalankan qwen3.5:latest lewat Ollama.
Lanjut Belajar AI
Jika artikel ini membantu, lanjutkan ke materi terstruktur agar pemahaman AI lebih rapi dan praktis.