AI Startups NL
gids

Qwen Lokaal Draaien: Gratis AI Op Je Eigen Machine

·Thomas Huijsmans
Qwen AI model dat lokaal draait op een laptop met terminal en code-editor op het scherm

Wat als je een AI‑model kon draaien dat presteert op het niveau van modellen die 20x groter zijn — gratis, op je eigen laptop, zonder dat je data ooit je machine verlaat? Met Qwen's nieuwste modellen kan dat.

De Qwen revolutie

Alibaba's Qwen‑team heeft in februari twee modellen uitgebracht die de AI‑wereld op zijn kop zetten:

QwQ-32B is een reasoning‑model met 32 miljard parameters dat presteert op het niveau van modellen met 600+ miljard parameters. Het scoort vergelijkbaar met DeepSeek‑R1 op wiskunde‑ en coding‑benchmarks, maar draait op een fractie van de hardware.

Qwen3.5 gaat nog een stap verder en presteert op het niveau van Claude Sonnet 4.5. Dit is een general‑purpose model dat je voor vrijwel alles kunt gebruiken: schrijven, coderen, analyseren, vertalen.

Beide modellen zijn volledig open source onder de Apache 2.0‑licentie. Dat betekent: gebruik het waarvoor je wilt, commercieel of niet.

Waarom lokaal draaien?

Voordat we de technische setup ingaan, even de waarom:

Zero API‑kosten. Geen tokens tellen, geen verrassingen op je factuur. Draai zoveel queries als je wilt.

Volledige GDPR‑compliance. Je data verlaat nooit je machine. Geen verwerkersovereenkomsten nodig, geen risico op datalekken via derden.

Offline werken. In het vliegtuig, op vakantie, of gewoon zonder internet — je AI‑assistent werkt altijd.

Geen vendor lock‑in. Je bent niet afhankelijk van de uptime, prijswijzigingen of beleidsveranderingen van een cloudprovider.

Methode 1: Ollama (aanbevolen voor beginners)

Ollama is de makkelijkste manier om lokale AI‑modellen te draaien. Het is een command‑line tool die het downloaden en draaien van modellen zo simpel mogelijk maakt.

Installatie

```bash

macOS

brew install ollama

Samenvatting & volgende stappen

Je kunt vandaag al Qwen-modellen lokaal draaien op je eigen laptop, met prestaties die in de buurt komen van veel grotere (en dure) cloudmodellen. De twee makkelijkste routes:

1. Snel starten (aanbevolen setup)

Als je een terminal oké vindt:

  1. Installeer Ollama
  • macOS (Homebrew):

```bash

brew install ollama

```

  • macOS/Linux (script):

```bash

curl -fsSL https://ollama.com/install.sh | sh

```

  • Windows: download de installer via ollama.com/download en doorloop de wizard.
  1. Download een Qwen-model (startpunt):

```bash

ollama pull qwen3:8b

```

  1. Start een lokale chat:

```bash

ollama run qwen3:8b

```

Je hebt nu een volledig lokale AI-assistent, zonder API-kosten en zonder dat data je machine verlaat.

2. Model kiezen op basis van je RAM

Richtlijn (bij benadering, Q4-quantization):

  • 8 GB RAM
  • Qwen3-8B
  • Qwen3-30B-A3B (MoE, gebruikt ~3B actief)
  • 16 GB RAM
  • Qwen3-14B
  • Qwen3-30B-A3B (comfortabeler)
  • 24 GB RAM
  • Qwen3-32B
  • QwQ-32B (reasoning) volledig in geheugen
  • 32 GB RAM (vooral Mac)
  • Qwen3.5-35B-A3B (topmodel, groot context window)

Voor de meeste gebruikers is Qwen3-8B de beste balans tussen snelheid en kwaliteit.

3. Thinking mode gebruiken (Qwen3 en nieuwer)

In je chat met een Qwen3/Qwen3.5-model kun je schakelen tussen denkmodi:

  • /think – stap-voor-stap redeneren voor complexe vragen (wiskunde, code, planning)
  • /no_think – snel, direct antwoord voor simpele vragen

Zo kies je per vraag tussen maximale kwaliteit of maximale snelheid.

4. LM Studio als je geen terminal wilt

Installatie:

  1. Download LM Studio via lmstudio.ai (macOS, Windows, Linux).
  2. Installeer (op Mac: sleep naar Applications en open de app).

Model downloaden:

  1. Open LM Studio.
  2. Druk Cmd+Shift+M (Mac) of Ctrl+Shift+M (Windows/Linux).
  3. Zoek op qwen.
  4. Kies een model dat past bij je RAM (zie tabel hierboven) en klik Download.

Voordelen:

  • Volledig visuele interface
  • Modellen naast elkaar vergelijken
  • Ingebouwde API-server met OpenAI-compatibel formaat
  • MLX support voor Apple Silicon (M1/M2/M3/M4) → extra snelheid

5. Performance & quantization

Quantization-niveaus (GGUF):

  • Q4KM – beste balans (aanbevolen)
  • Q8 – bijna originele kwaliteit, ~2× zo groot als Q4
  • Q2/Q3 – klein en snel, maar merkbaar kwaliteitsverlies

Vuistregel: ~0,6–0,7 GB per miljard parameters bij Q4.

Apple Silicon (M1/M2/M3/M4):

  • Unified memory = al je RAM is bruikbaar voor het model.
  • Een MacBook Pro met 32 GB RAM kan een 32B-model prima draaien.
  • Gebruik in LM Studio het MLX-formaat voor maximale performance.

NVIDIA GPU (Ollama):

  • Zorg voor recente CUDA-drivers.
  • Vanaf Ollama v0.13.5 is Flash Attention standaard aan voor ondersteunde modellen → minder VRAM, hogere snelheid.

6. Praktische use-cases

Met Qwen lokaal kun je o.a.:

  • E-mails en teksten schrijven zonder gevoelige info naar de cloud te sturen.
  • Code schrijven en debuggen – koppel Ollama aan VS Code (bijv. via Cline) voor een gratis coding assistant.
  • Documenten samenvatten – lokale PDF’s inladen en samenvattingen genereren.
  • Brainstormen – onbeperkt ideeën genereren zonder tokenkosten.
  • Vertalen – Qwen is sterk in meertaligheid, inclusief Nederlands.

7. Waarom dit interessant is

  • Geen API-kosten – onbeperkt gebruik.
  • Volledige GDPR-controle – data blijft lokaal.
  • Offline bruikbaar – werkt zonder internet.
  • Geen vendor lock-in – onafhankelijk van cloudproviders.
  • Open source (Apache 2.0) – vrij voor commercieel en niet-commercieel gebruik.

8. Concrete startgids (kort)

Minimale stappen voor de meeste mensen:

  1. Installeer Ollama.
  2. Run:

```bash

ollama pull qwen3:8b

ollama run qwen3:8b

Blijf op de hoogte

Ontvang wekelijks de beste AI-tips direct in je inbox.

Leer van andere ondernemers die AI inzetten

Word lid van onze Discord

Gerelateerde berichten

Seedance 2.0: AI Video Maken Voor Je Startup
gids

Seedance 2.0: AI Video Maken Voor Je Startup

Seedance 2.0 maakt AI video bereikbaar voor startups: 1080p, 20 seconden, lip-sync audio, en de helft goedkoper dan Veo 3. Zo gebruik je het voor marketing.