Google Gemma 4: Het Krachtigste Open AI-Model dat Je Zelf Kunt Draaien
Google DeepMind bracht op 2 april Gemma 4 uit: vier open-source modellen onder Apache 2.0 die draaien van Raspberry Pi tot datacenter. Het 2,3B model verslaat zijn 27B voorganger. Dit is wat het betekent voor developers en bedrijven.

Introductie
Een model met 2,3 miljard parameters dat zijn voorganger van 27 miljard parameters verslaat. Dat is het kopcijfer van Google Gemma 4, uitgebracht op 2 april 2026. Maar het echte verhaal is niet één benchmark. Het is dat Google een familie van vier AI-modellen open-sourcet, van Raspberry Pi-schaal tot datacenter-schaal, onder Apache 2.0. Geen restricties op commercieel gebruik. Geen speciale overeenkomsten. Downloaden en deployen.
De Gemma 4 familie komt uit dezelfde research- en technologiestack als Gemini 3, Google's gesloten vlaggenschipmodel. Dat maakt dit het dichtst dat Google ooit is gekomen bij het weggeven van zijn beste werk. Voor bedrijven die lokale AI-deployment, self-hosted inference of agentische workflows verkennen die on-premise moeten draaien, verandert deze release de berekening.
Vier Modellen, van Telefoon tot Serverrack
Gemma 4 bestaat uit vier modellen, elk gericht op een ander hardwareprofiel. E2B heeft 2,3 miljard effectieve parameters, ondersteunt 128K token context, en verwerkt tekst, afbeeldingen en audio. Het draait op smartphones, IoT-apparaten en Raspberry Pi's. E4B verdubbelt de parameters naar 4,5 miljard met dezelfde 128K context en multimodale ondersteuning, gericht op edge devices en laptops.
Het 26B model gebruikt een Mixture-of-Experts (MoE) architectuur met slechts 3,8 miljard actieve parameters op elk moment, ondanks de 26 miljard in totaal. Dit geeft het de intelligentie van een veel groter model tegen de inferentiekosten van een klein model. Het ondersteunt 256K token context. Het vlaggenschip 31B dense model pakt 30,7 miljard parameters met 256K context en staat op de derde plaats onder alle open modellen op het Arena AI leaderboard met een score van 2150 op LMArena.
Alle vier de modellen verwerken tekst, afbeeldingen, video en audio-invoer native. Alle ondersteunen function-calling voor agentische workflows out of the box. En alle zijn uitgebracht onder Apache 2.0, wat betekent dat je ze kunt aanpassen, fine-tunen en verzenden in commerciële producten zonder licentiekosten of gebruiksbeperkingen.
De Benchmarks die Ertoe Doen
Cijfers zonder context zijn ruis. Hier zijn de vergelijkingen die een echt verhaal vertellen. Op GPQA Diamond, een benchmark voor wetenschappelijk redeneren op masterniveau, scoort het 31B model 85,7% en het 26B model 79,2%. Op AIME 2026 wiskunde scoort het 31B 89,2% en het 26B 88,3%. Vergelijk dat met Gemma 3 27B op 20,8% op dezelfde test. De generatieverbetering is niet incrementeel. Het is een categorieverschuiving.
Tool use vertelt een vergelijkbaar verhaal. Op de retail benchmark uit de tau-2 suite scoort het 31B model 86,4%. Gemma 3 27B scoorde 6,6% op dezelfde test. Dit is belangrijk omdat tool use de kerncompetentie is voor agentische AI: een AI-model dat functies kan aanroepen, API's kan bevragen en acties aan elkaar kan koppelen om multi-stap problemen op te lossen.
Het E2B model verdient een eigen highlight. Met 2,3 miljard effectieve parameters verslaat het Gemma 3 27B op de meeste benchmarks, ondanks dat het ruwweg een tiende van de grootte is. Google CEO Sundar Pichai beschreef het als "een ongelooflijke hoeveelheid intelligentie per parameter." Qua meertalige prestaties overtreffen de modellen Qwen 3.5 in Duits, Arabisch, Vietnamees en Frans, relevant voor bedrijven die in heel Europa en daarbuiten opereren.
Wat de Community Vond na 24 Uur
Geen lancering is compleet zonder real-world testing. Binnen 24 uur na de release identificeerde de developercommunity zowel sterke punten als beperkingen. De efficiëntie van het E2B model kreeg brede waardering. Een capabel multimodaal model draaien op een gewone laptop of Raspberry Pi was eerder niet haalbaar. Nu wel, en de praktische use cases voor edge deployment breiden aanzienlijk uit.
De zorgen richtten zich op het MoE model. Community benchmarks toonden het draaiend op ongeveer 11 tokens per seconde versus 60+ voor het equivalente model van Qwen 3.5. Dat snelheidsverschil is relevant voor interactieve applicaties. Het dense 31B model haalde 18 tot 25 tokens per seconde op twee consumentenvideokaarten, acceptabel voor de meeste use cases maar onder de snellere gesloten alternatieven.
VRAM-verbruik werd ook hoger dan verwacht bevonden, vooral bij lange context windows. En developers die de modellen probeerden te fine-tunen met QLoRA meldden frictie met Google's nieuwe trainingsconfiguratie-vereisten. Dit zijn launch-day problemen die doorgaans snel verbeteren, maar ze zijn het vermelden waard voor teams die directe deployments plannen.
Waarom Apache 2.0 Alles Verandert
Eerdere Gemma-versies verschenen onder een restrictievere licentie die bepaalde commerciële toepassingen beperkte. Gemma 4 verschijnt onder Apache 2.0, dezelfde licentie die wordt gebruikt door Kubernetes, Airflow en het grootste deel van de moderne open-source infrastructuurstack.
De praktische impact is direct. Je kunt Gemma 4 downloaden, fine-tunen op je eigen data, inbouwen in je product en dat product verkopen zonder Google te betalen of een overeenkomst te tekenen. Je kunt de modelgewichten aanpassen, afgeleide werken maken en distribueren. De enige vereiste is naamsvermelding.
Voor bedrijven die terughoudend zijn geweest met gesloten AI-API's vanwege vendor lock-in, dataprivacy of onvoorspelbare prijzen, is dit het sterkste alternatief tot nu toe. Draai het op je eigen servers. Houd je data on-premise. Betaal voor rekenkracht, niet per-token API-kosten. De totale eigendomskosten voor veel workloads kantelen in het voordeel van self-hosted wanneer de modelkwaliteit dit niveau bereikt.
Wat Wij Zien bij MG Software
Bij MG Software gebruiken we momenteel een mix van cloud API modellen voor verschillende taken. Gemma 4 vervangt die strategie niet, maar voegt een krachtige nieuwe optie toe voor specifieke scenario's.
Het E2B model is interessant voor on-device features in mobiele en progressive web apps. Classificatie, intent-detectie en eenvoudige samenvattingstaken die nu een API-call vereisen zouden lokaal kunnen draaien, waarmee latency en API-kosten volledig wegvallen. Voor progressive web apps die offline AI-mogelijkheden nodig hebben was dit eerder niet realistisch.
Het 26B MoE model raakt een sweet spot voor bedrijven die self-hosted AI willen maar geen datacenter-grade hardware kunnen rechtvaardigen. Een enkele consumentenvideokaart die een 256K context window model draait met function-calling ondersteuning opent de deur naar lokale code assistants, documentanalyse en klantgerichte chat die je infrastructuur nooit verlaat. Voor klanten met strikte data residency-eisen, vooral in de zorg, juridische sector en overheid, is dit het antwoord op de vraag "kunnen we AI gebruiken zonder onze data naar een derde partij te sturen?"
Evalueert uw team of lokale of self-hosted AI zinvol is voor uw use case? Neem contact op. De kosten- en capaciteitsdrempel is deze week verschoven.
Conclusie
Google Gemma 4 is niet zomaar een open model release. Het is het punt waarop open-source AI daadwerkelijke productiekwaliteit bereikt over meerdere schalen, van edge devices tot server deployments, zonder licentierestricties. De benchmarks spreken voor zich. Een 2,3B model dat het 27B model van vorige generatie verslaat is het soort efficiëntiewinst dat herdefinieert wat mogelijk is.
Voor development teams is de les praktisch: test Gemma 4 tegen je huidige workloads. Voor classificatie, function-calling en meertalige taken is het mogelijk al goed genoeg om API-calls te vervangen. Voor self-hosted deployment neemt de Apache 2.0 licentie de laatste barrière weg. De open-source AI kloof sluit sneller dan de meeste mensen verwachtten.

Jordan
Co-Founder
Gerelateerde artikelen

Claude Code Broncode Gelekt: Wat 512.000 Regels TypeScript Onthullen over AI Coding Agents
Op 31 maart publiceerde Anthropic per ongeluk de volledige broncode van Claude Code via npm. Van zelfherstellend geheugen tot undercover modus: dit is wat 1.906 gelekte bestanden onthullen over hoe AI coding agents echt werken.

Microsoft Bouwt Eigen AI-Modellen en Neemt Afstand van OpenAI
Microsoft lanceerde op 2 april drie eigen AI-modellen, gebouwd door teams van minder dan 10 engineers. Na $13 miljard in OpenAI te hebben geinvesteerd, bouwt Microsoft nu concurrerende producten. Dit betekent het voor bedrijven op Azure.

Anthropic's Code Review Tool: Waarom AI-Gegenereerde Code AI-Review Nodig Heeft
Anthropic lanceerde een dedicated code review tool voor de stroom AI-gegenereerde pull requests. We analyseren wat het doet, waarom het ertoe doet, en hoe het past in moderne development workflows.

OpenClaw de GitHub sensatie en waarom zakelijk gebruik nog risico is
Honderdduizenden sterren en een AI op uw machine: wat OpenClaw doet, welke risico's experts zien, en of zakelijk gebruik nu slim is.








