Microsoft sort MDASH, une meute de cent agents IA qui bat Claude Mythos et GPT-5.5 sur le benchmark cyber CyberGym

Microsoft a annoncé hier MDASH, un système agentique multi-modèle qui orchestre plus de 100 agents IA spécialisés pour traquer les failles de sécurité dans le code. Score sur le benchmark public CyberGym : 88,45 %, soit cinq points devant le deuxième entrant. Au passage, MDASH a déjà débusqué 16 nouvelles vulnérabilités dans Windows, dont quatre exécutions de code à distance critiques.

Plus de 100 agents, plusieurs modèles, un orchestrateur unique

MDASH (pour Multi-model Agentic Scanning Harness) est l’œuvre de l’équipe Autonomous Code Security de Microsoft. Plusieurs de ses membres viennent de Team Atlanta, l’équipe qui a remporté en 2024 le DARPA AI Cyber Challenge doté de 29,5 millions de dollars. Le système ne se contente pas d’un grand modèle de langage. Il fait coopérer une centaine d’agents répartis sur plusieurs modèles, qu’il s’agisse de raisonneurs frontaliers ou de modèles distillés à coût réduit.

Le pipeline est découpé en cinq étapes. Préparation : indexation du code source et modélisation des surfaces d’attaque. Scan : des agents auditeurs parcourent les chemins de code suspects. Validation : un second groupe d’agents joue les avocats, plaide pour ou contre chaque finding. Dédoublonnage : les bugs équivalents sont regroupés. Preuve : MDASH construit puis exécute des inputs qui déclenchent réellement la vulnérabilité, par exemple via AddressSanitizer pour le C/C++.

16 failles trouvées dans Windows, quatre RCE critiques

Les premières utilisations en interne sont éloquentes. MDASH a découvert 16 nouvelles vulnérabilités dans la pile réseau et le système d’authentification de Windows, dont quatre exécutions de code à distance critiques dans le noyau TCP/IP et le service IKEv2. Sur un pilote test privé contenant 21 failles plantées, MDASH les a toutes trouvées sans aucun faux positif. Sur cinq ans de cas confirmés par le Microsoft Security Response Center, le rappel est de 96 % sur clfs.sys et 100 % sur tcpip.sys.

La performance sur CyberGym, le benchmark public développé par les chercheurs d’UC Berkeley, achève la démonstration. Avec 1 507 tâches issues de 188 projets open source, c’est l’un des tests les plus exigeants du domaine. MDASH y obtient 88,45 %, devant le système agentique d’Anthropic basé sur Claude Mythos (environ 84 %) et celui d’OpenAI bâti sur GPT-5.5.

L’avantage agentique, pas l’avantage modèle

L’enseignement le plus intéressant tient en une phrase de Microsoft : « L’avantage durable réside dans le système agentique autour du modèle, pas dans le modèle lui-même. » Autrement dit, peu importe que Claude Mythos soit légèrement plus fort sur le raisonnement brut, c’est l’orchestration qui fait la différence. MDASH utilise les meilleurs modèles disponibles à chaque étape, et change de modèle si un autre se révèle plus efficace pour une sous-tâche.

Cette approche tranche avec la stratégie d’Anthropic, qui mise sur un modèle quasi unique avec son Project Glasswing annoncé la semaine dernière. Glasswing fédère Apple, Google, Microsoft, NVIDIA et plusieurs acteurs autour de Claude Mythos2 pour la cybersécurité. Avec MDASH, Microsoft prend de fait ses distances : la firme reste dans Glasswing, mais elle prouve aussi qu’elle peut faire mieux toute seule avec un orchestrateur multi-modèles.

Une preview privée, une mise sur le marché à terme

MDASH est déjà utilisé par les équipes internes de Microsoft Security. La société teste également le système chez un petit nombre de clients dans le cadre d’une private preview. La feuille de route n’est pas publique, mais Microsoft laisse entendre que MDASH finira intégré aux offres Defender et Security Copilot. Les clients qui veulent rejoindre le programme peuvent s’inscrire via le blog Microsoft Security.

Pour les attaquants, la nouvelle est ambivalente. Côté positif, ce sont des centaines de failles qui pourraient être colmatées en amont. Côté négatif, rien n’empêche un État ou un groupe criminel de répliquer la méthode pour découvrir des zero-days exploitables. La course entre offensive et défensive ne s’apaise pas, elle change juste d’échelle.

Plus de 100 agents, plusieurs modèles, un orchestrateur unique

16 failles trouvées dans Windows, quatre RCE critiques

L’avantage agentique, pas l’avantage modèle

Une preview privée, une mise sur le marché à terme

L’essentiel de la robotique, une fois par semaine.

Continuer sur ce sujet

Genesis Mission : Trump engage 5 milliards de dollars fédéraux pour faire de l’IA le moteur de la science américaine

Travis Kalanick lève 1,7 milliard de dollars avec Atoms pour automatiser les mines, chantiers et entrepôts

Google lance Gemini 3.6 Flash et annonce le pré-entraînement de Gemini 4 : 17 % de tokens en moins et un modèle cybersécurité inédit