Qwen Lokaal Draaien: Gratis AI Op Je Eigen Machine

Wat als je een AI‑model kon draaien dat presteert op het niveau van modellen die 20x groter zijn — gratis, op je eigen laptop, zonder dat je data ooit je machine verlaat? Met Qwen's nieuwste modellen kan dat.
De Qwen revolutie
Alibaba's Qwen‑team heeft in februari twee modellen uitgebracht die de AI‑wereld op zijn kop zetten:
QwQ-32B is een reasoning‑model met 32 miljard parameters dat presteert op het niveau van modellen met 600+ miljard parameters. Het scoort vergelijkbaar met DeepSeek‑R1 op wiskunde‑ en coding‑benchmarks, maar draait op een fractie van de hardware.
Qwen3.5 gaat nog een stap verder en presteert op het niveau van Claude Sonnet 4.5. Dit is een general‑purpose model dat je voor vrijwel alles kunt gebruiken: schrijven, coderen, analyseren, vertalen.
Beide modellen zijn volledig open source onder de Apache 2.0‑licentie. Dat betekent: gebruik het waarvoor je wilt, commercieel of niet.
Waarom lokaal draaien?
Voordat we de technische setup ingaan, even de waarom:
Zero API‑kosten. Geen tokens tellen, geen verrassingen op je factuur. Draai zoveel queries als je wilt.
Volledige GDPR‑compliance. Je data verlaat nooit je machine. Geen verwerkersovereenkomsten nodig, geen risico op datalekken via derden.
Offline werken. In het vliegtuig, op vakantie, of gewoon zonder internet — je AI‑assistent werkt altijd.
Geen vendor lock‑in. Je bent niet afhankelijk van de uptime, prijswijzigingen of beleidsveranderingen van een cloudprovider.
Methode 1: Ollama (aanbevolen voor beginners)
Ollama is de makkelijkste manier om lokale AI‑modellen te draaien. Het is een command‑line tool die het downloaden en draaien van modellen zo simpel mogelijk maakt.
Installatie
```bash
macOS
brew install ollama
Samenvatting & volgende stappen
Je kunt vandaag al Qwen-modellen lokaal draaien op je eigen laptop, met prestaties die in de buurt komen van veel grotere (en dure) cloudmodellen. De twee makkelijkste routes:
1. Snel starten (aanbevolen setup)
Als je een terminal oké vindt:
- Installeer Ollama
- macOS (Homebrew):
```bash
brew install ollama
```
- macOS/Linux (script):
```bash
curl -fsSL https://ollama.com/install.sh | sh
```
- Windows: download de installer via
ollama.com/downloaden doorloop de wizard.
- Download een Qwen-model (startpunt):
```bash
ollama pull qwen3:8b
```
- Start een lokale chat:
```bash
ollama run qwen3:8b
```
Je hebt nu een volledig lokale AI-assistent, zonder API-kosten en zonder dat data je machine verlaat.
2. Model kiezen op basis van je RAM
Richtlijn (bij benadering, Q4-quantization):
- 8 GB RAM
- Qwen3-8B
- Qwen3-30B-A3B (MoE, gebruikt ~3B actief)
- 16 GB RAM
- Qwen3-14B
- Qwen3-30B-A3B (comfortabeler)
- 24 GB RAM
- Qwen3-32B
- QwQ-32B (reasoning) volledig in geheugen
- 32 GB RAM (vooral Mac)
- Qwen3.5-35B-A3B (topmodel, groot context window)
Voor de meeste gebruikers is Qwen3-8B de beste balans tussen snelheid en kwaliteit.
3. Thinking mode gebruiken (Qwen3 en nieuwer)
In je chat met een Qwen3/Qwen3.5-model kun je schakelen tussen denkmodi:
/think– stap-voor-stap redeneren voor complexe vragen (wiskunde, code, planning)/no_think– snel, direct antwoord voor simpele vragen
Zo kies je per vraag tussen maximale kwaliteit of maximale snelheid.
4. LM Studio als je geen terminal wilt
Installatie:
- Download LM Studio via
lmstudio.ai(macOS, Windows, Linux). - Installeer (op Mac: sleep naar Applications en open de app).
Model downloaden:
- Open LM Studio.
- Druk Cmd+Shift+M (Mac) of Ctrl+Shift+M (Windows/Linux).
- Zoek op
qwen. - Kies een model dat past bij je RAM (zie tabel hierboven) en klik Download.
Voordelen:
- Volledig visuele interface
- Modellen naast elkaar vergelijken
- Ingebouwde API-server met OpenAI-compatibel formaat
- MLX support voor Apple Silicon (M1/M2/M3/M4) → extra snelheid
5. Performance & quantization
Quantization-niveaus (GGUF):
- Q4KM – beste balans (aanbevolen)
- Q8 – bijna originele kwaliteit, ~2× zo groot als Q4
- Q2/Q3 – klein en snel, maar merkbaar kwaliteitsverlies
Vuistregel: ~0,6–0,7 GB per miljard parameters bij Q4.
Apple Silicon (M1/M2/M3/M4):
- Unified memory = al je RAM is bruikbaar voor het model.
- Een MacBook Pro met 32 GB RAM kan een 32B-model prima draaien.
- Gebruik in LM Studio het MLX-formaat voor maximale performance.
NVIDIA GPU (Ollama):
- Zorg voor recente CUDA-drivers.
- Vanaf Ollama v0.13.5 is Flash Attention standaard aan voor ondersteunde modellen → minder VRAM, hogere snelheid.
6. Praktische use-cases
Met Qwen lokaal kun je o.a.:
- E-mails en teksten schrijven zonder gevoelige info naar de cloud te sturen.
- Code schrijven en debuggen – koppel Ollama aan VS Code (bijv. via Cline) voor een gratis coding assistant.
- Documenten samenvatten – lokale PDF’s inladen en samenvattingen genereren.
- Brainstormen – onbeperkt ideeën genereren zonder tokenkosten.
- Vertalen – Qwen is sterk in meertaligheid, inclusief Nederlands.
7. Waarom dit interessant is
- Geen API-kosten – onbeperkt gebruik.
- Volledige GDPR-controle – data blijft lokaal.
- Offline bruikbaar – werkt zonder internet.
- Geen vendor lock-in – onafhankelijk van cloudproviders.
- Open source (Apache 2.0) – vrij voor commercieel en niet-commercieel gebruik.
8. Concrete startgids (kort)
Minimale stappen voor de meeste mensen:
- Installeer Ollama.
- Run:
```bash
ollama pull qwen3:8b
ollama run qwen3:8b
Blijf op de hoogte
Ontvang wekelijks de beste AI-tips direct in je inbox.
Leer van andere ondernemers die AI inzetten
Word lid van onze DiscordGerelateerde berichten

AI Coding Tools Vergeleken: Claude Code vs Cursor vs Windsurf vs Cline
Een hands-on vergelijking van de vier grootste AI coding tools in februari 2026. Welke past bij jouw workflow? Claude Code, Cursor, Windsurf of Cline.

Seedance 2.0: AI Video Maken Voor Je Startup
Seedance 2.0 maakt AI video bereikbaar voor startups: 1080p, 20 seconden, lip-sync audio, en de helft goedkoper dan Veo 3. Zo gebruik je het voor marketing.

OpenClaw: De Gratis AI Agent Die Je Computer Bestuurt
OpenClaw is een open-source AI agent met 140K GitHub stars die je computer kan besturen. Lokaal, gratis, en GDPR-proof. Zo ga je ermee aan de slag.