Google DeepMind a publié Gemma 4, la nouvelle génération de sa famille de modèles open weights. Quatre tailles sont proposées, du modèle compact pensé pour le mobile et l’IoT jusqu’à la version 31 milliards de paramètres destinée aux PC et serveurs. Le tout est dérivé des recherches qui ont alimenté Gemini 3, avec un objectif assumé : maximiser l’intelligence par paramètre.
La famille comprend Gemma 4 E2B et E4B, deux modèles efficients orientés terminaux contraints, ainsi que Gemma 4 A4B (architecture mixture-of-experts à 26 milliards de paramètres) et Gemma 4 31B IT Thinking, conçu pour des charges de travail plus exigeantes. Tous prennent en charge le raisonnement multimodal, l’audio, la vision et 140 langues.
Une fonction agentique mise en avant
L’un des arguments centraux de cette release est l’orientation agentique. Gemma 4 supporte nativement le function calling et est positionné par DeepMind comme une base pour développer des agents capables de planifier, naviguer dans des applications et exécuter des tâches en autonomie. Le modèle est aussi annoncé comme adapté au fine-tuning sur des frameworks tiers.
Côté chiffres, la version 31B en mode Thinking affiche 89,2 % à AIME 2026 (mathématiques sans outils), 80 % à LiveCodeBench v6 (programmation compétitive), 84,3 % au GPQA Diamond (questions scientifiques de niveau doctorat) et 86,4 % au benchmark agentique τ2-bench retail. La précédente génération Gemma 3 27B plafonnait à 20,8 % sur AIME 2026 et 29,1 % sur LiveCodeBench, signe d’un saut de génération significatif.
Disponible immédiatement chez AWS
L’écosystème de distribution suit. Amazon SageMaker JumpStart annonce dès le 29 avril l’intégration de la famille Gemma 4, ce qui permet aux clients AWS de déployer les modèles en quelques clics, avec scaling et managed inference. Une disponibilité simultanée sur les deux principaux clouds (Google Vertex AI côté maison et AWS) renforce le positionnement open weights de Google face à Llama et DeepSeek.
Cette stratégie multi-cloud n’est pas anodine. Gemma vise les développeurs qui veulent garder la main sur leur stack, déployer en local ou sur infrastructure souveraine, et conserver la possibilité de fine-tuner. C’est aussi un message envoyé aux entreprises et aux administrations européennes qui cherchent une alternative crédible aux modèles propriétaires.
Trois sorties simultanées pour cibler l’Inde
Google DeepMind a couplé l’annonce de Gemma 4 avec celles de Gemini 3.1 Flash-Lite et Veo 3.1 Lite, dans le cadre d’un push commercial sur le marché indien. L’idée est de proposer un trio compact, performant et économique pour soutenir les applications locales en multilangue, dans un contexte où la régulation et la souveraineté pèsent de plus en plus sur les choix d’infrastructure IA.
L’open weights face à DeepSeek V4
Le calendrier est éloquent. Quatre jours après le lancement de DeepSeek V4 Pro et V4 Flash (1,6 trillion de paramètres, 1 million de tokens de contexte, licence MIT), Google répond avec une famille plus compacte mais positionnée sur l’efficacité. Là où DeepSeek vise le frontier raw, Gemma 4 mise sur l’embarqué, le multimodal et la facilité de déploiement.
Pour les développeurs robotique, l’arrivée d’un modèle agentique open weights, capable de tourner sur du matériel modeste tout en gérant audio et vision, est un signal fort. Les humanoïdes et les bras industriels qui exigent un raisonnement embarqué à faible latence sont parmi les premiers cas d’usage que les constructeurs de la physical AI scrutent en ce moment.