MiniMax sort M2.5, son modèle agentique chinois qui égale Claude Opus 4.6 en codage à 10 % du prix

Le laboratoire chinois MiniMax a sorti ce 11 mai M2.5, son nouveau modèle de fondation taillé pour les tâches agentiques de production. Le modèle décroche 80,2 % en SWE-Bench Verified (génération de patches sur des bugs réels), 76,3 % en BrowseComp (recherche web) et 51,3 % en Multi-SWE-Bench. Plus marquant : il complète une tâche SWE-Bench Verified en 22,8 minutes en moyenne, soit la même vitesse que Claude Opus 4.6 d’Anthropic, pour un coût total équivalent à 10 % de celui du modèle d’Anthropic.

Une cadence de progression industrielle

Le calendrier de MiniMax force l’attention. La société a sorti M2 fin octobre 2025, M2.1 en mars, et maintenant M2.5, soit trois itérations majeures en trois mois et demi. Selon les chiffres communiqués, la progression du couple capacité/coût dépasse celle des familles Claude, GPT et Gemini sur la même période, en particulier sur SWE-Bench Verified. M2.5 améliore les scores de M2.1 tout en réduisant la consommation moyenne de tokens par tâche, qui passe de 3,72 millions à 3,52 millions, pour un gain de vitesse global de 37 %.

Côté tooling, MiniMax revendique des résultats supérieurs à Claude Opus 4.6 sur deux harnais de coding agents largement utilisés : 79,7 contre 78,9 sur Droid, 76,1 contre 75,9 sur OpenCode. C’est le premier modèle chinois à se hisser à ce niveau de généralisation cross-harness, point sensible où les modèles entraînés sur un seul scaffolding s’effondrent souvent sur les bancs d’essai concurrents.

Un dollar de l’heure pour un agent à 100 tokens par seconde

L’argument économique est le vrai coup de force. M2.5 est servi nativement à 100 tokens par seconde, presque le double de la cadence des modèles frontière concurrents. Deux versions sont disponibles : M2.5-Lightning (100 TPS) à 0,30 dollar par million de tokens d’entrée et 2,40 dollars par million de tokens de sortie, et M2.5 standard (50 TPS) à moitié prix. Faire tourner le modèle en continu pendant une heure coûte 1 dollar à 100 TPS, ou 30 centimes à 50 TPS. MiniMax avance qu’avec 10 000 dollars annuels, on peut faire tourner quatre instances M2.5 en continu pendant un an, ce qui place l’opération d’agents à un coût marginal proche de zéro pour des cas d’usage industriels.

En base output, M2.5 ressort à un dixième à un vingtième du prix de Claude Opus 4.6, Gemini 3 Pro et GPT-5. C’est précisément ce différentiel qui rend l’usage agentique en boucle longue économiquement viable pour des entreprises qui jusqu’ici limitaient leurs déploiements à cause de la facture inférence.

Forge, le framework RL maison qui fait la différence

MiniMax attribue son rythme à un investissement massif dans le reinforcement learning, avec des centaines de milliers d’environnements RL construits en interne, dont beaucoup recyclent les workflows métier de l’entreprise elle-même. Le laboratoire a aussi publié les contours de Forge, son framework RL agent-native, qui découple le moteur d’inférence et le scaffolding agent. La couche intermédiaire permet d’entraîner sur des agents arbitraires et a permis, grâce à un scheduling asynchrone et une fusion arborescente des échantillons, un gain de 40 fois sur la vitesse d’entraînement.

Côté algorithme, l’équipe continue d’utiliser CISPO, sa variante interne stable du PPO décrite début 2025. Le modèle a aussi été entraîné à penser et planifier comme un architecte logiciel : avant toute production de code, M2.5 décompose les features, la structure et l’UI du projet. Le corpus couvre plus de dix langages dont Go, C, C++, TypeScript, Rust, Kotlin, Python, Java et JavaScript, sur plus de 200 000 environnements réels.

Conséquence pour le marché

L’arrivée de M2.5 confirme une dynamique structurelle. Après DeepSeek V4 il y a une semaine, c’est la deuxième sortie chinoise frontière à plus de 80 % SWE-Bench Verified en moins de quinze jours. Pour les fournisseurs occidentaux, l’écart de prix devient difficile à justifier sur des usages où le différentiel de capacité brute reste sous 5 points. Côté agents robotiques, c’est un signal : le coût d’opération d’un humanoïde piloté en boucle longue par un LLM s’effondre, ce qui rapproche l’économie unitaire des déploiements industriels.

Reste l’enjeu de la souveraineté. Faire tourner un agent à 30 centimes de l’heure est attractif. Le faire sur un modèle hébergé par un fournisseur chinois pour des tâches sensibles d’entreprise occidentale l’est moins, en particulier pour des contrats défense ou des données soumises au RGPD ou au CLOUD Act.

Sources : MiniMax (annonce officielle), MiniMax M2.1, LLM Stats Updates mai 2026.

Lightning

HONORVoir la fiche

Une cadence de progression industrielle

Un dollar de l’heure pour un agent à 100 tokens par seconde

Forge, le framework RL maison qui fait la différence

Conséquence pour le marché

🤖 Robots mentionnés dans cet article

Lightning

À lire aussi

Au MWC 2026, Alibaba lance ses lunettes Qwen AI à 275 dollars et défie directement Meta

OpenAI dépose en secret son dossier d’introduction en Bourse et vise 850 milliards de dollars, juste derrière Anthropic

Honor lance Agentic OS, un système mobile piloté par des agents IA plutôt que par des applications