Ilustrasi instalasi Qwen3.5 di Ubuntu 22.04 dengan Nvidia L40S vGPU

Tutorial Install Qwen3.5:latest di Ubuntu 22.04 dengan vGPU Nvidia L40S 16GB

Disclosure: artikel ini dapat memuat rekomendasi tools atau tautan afiliasi/sponsor di masa depan. Baca disclosure afiliasi.

Tutorial Install Qwen3.5:latest di Ubuntu 22.04 dengan vGPU Nvidia L40S 16GB

Artikel ini membahas cara menjalankan qwen3.5:latest lewat Ollama di Ubuntu 22.04 dengan dukungan vGPU Nvidia L40S 16GB, RAM 32GB, dan storage 200GB.

1. Cek Kesiapan Sistem

  • Cek GPU dengan nvidia-smi.
  • Cek RAM dengan free -h.
  • Cek storage dengan df -h.

2. Install Driver NVIDIA Jika Belum Ada

  • Jalankan sudo apt update.
  • Lihat driver yang direkomendasikan dengan sudo ubuntu-drivers devices.
  • Install otomatis dengan sudo ubuntu-drivers autoinstall.
  • Reboot server jika perlu.

3. Install Ollama

Install Ollama dari halaman resmi ollama.com/download. Setelah selesai, pastikan service aktif dengan systemctl status ollama.

4. Download dan Jalankan Model

  • Download model: ollama pull qwen3.5:latest
  • Jalankan model: ollama run qwen3.5:latest

5. Cek Model yang Sudah Di-download

Untuk menampilkan model yang sudah ada di mesin Anda, jalankan ollama ls. Pada beberapa versi Ollama, perintah yang umum dipakai adalah ollama list.

6. Cek Model yang Sedang Berjalan

Untuk melihat model yang sedang aktif, jalankan ollama ps.

7. Ilustrasi Alur Ollama

Setelah Ollama terpasang, jalankan perintah ollama di terminal. Biasanya akan muncul tampilan interaktif dengan menu seperti Chat with a model dan daftar model yang tersedia. Jika Anda memasang lebih dari satu model, model lokal atau model cloud yang didukung bisa tampil di daftar itu sesuai instalasi dan ketentuan masing-masing, termasuk model gratis yang punya batasan pemakaian.

  • Jalankan ollama untuk membuka menu interaktif.
  • Pilih salah satu model dari daftar.
  • Ketik pesan seperti haloo apakabar.
  • Model akan merespons di terminal.
  • Gunakan ollama ls untuk melihat model yang sudah di-download dan ollama ps untuk melihat model yang sedang berjalan.

Contoh tampilan respon Ollama:

Tampilan respon Ollama dan daftar model

8. Tips Tuning untuk L40S 16GB

  • Gunakan satu model utama dulu.
  • Jaga storage tetap lega.
  • Batasi model aktif jika perlu dengan OLLAMA_MAX_LOADED_MODELS=1.
  • Fokus ke stabilitas sebelum mengejar ukuran model yang lebih besar.

9. Korelasi Ukuran Model dan GPU

Ukuran file model di disk dan kebutuhan VRAM GPU itu tidak selalu sama, tetapi umumnya berkaitan. Makin besar model, makin besar pula beban memori saat dijalankan. Karena itu, L40S 16GB lebih aman untuk model kecil sampai menengah, terutama jika model sudah di-quantize.

  • Model kecil: biasanya paling lancar di GPU terbatas dan cepat untuk chat harian.
  • Model menengah: cocok untuk L40S 16GB jika tidak membuka banyak model bersamaan.
  • Model besar: bisa butuh VRAM lebih dari 16GB atau perlu quantization agar muat.
  • File model di disk: makin besar ukuran file, makin besar juga kebutuhan storage untuk download, cache, dan update.

Aturan praktisnya: kalau VRAM GPU penuh, model akan melambat atau gagal jalan. Kalau storage sempit, model mungkin tidak bisa diunduh atau disimpan dengan nyaman.

10. Kapan Setup Ini Cocok?

  • Belajar model lokal di Ubuntu.
  • Server internal yang butuh AI privat.
  • Coding assistant offline yang ringan.
  • Eksperimen workflow AI tanpa biaya API cloud.

Kesimpulan

Dengan Ubuntu 22.04, vGPU Nvidia L40S 16GB, RAM 32GB, dan storage 200GB, Anda sudah punya basis yang bagus untuk menjalankan qwen3.5:latest lewat Ollama.

Lanjut Belajar AI

Jika artikel ini membantu, lanjutkan ke materi terstruktur agar pemahaman AI lebih rapi dan praktis.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *