Après l’agent conversationnel, la plateforme agentique et la simulation industrielle, Mistral s’attaque à un nouveau terrain : la robotique. La pépite française développe des algorithmes pour faire naviguer et manipuler des objets à des robots, avec l’usine en ligne de mire.
L’IA physique s’appuie sur l’IA générative
Le raisonnement de Mistral part d’un constat. Les modèles de fondation qui ont fait exploser l’IA générative changent aussi la donne pour la robotique. Guillaume Lample, l’un des cofondateurs de l’entreprise, anticipe l’arrivée d’algorithmes de manipulation bien plus efficaces que tout ce qui existe aujourd’hui, parce qu’ils reposent sur la technologie des grands modèles de langage.
Pour structurer ces recherches, la start-up a recruté Olivier Duchenne. Le chercheur a fait ses armes chez Aldebaran, pionnier français de la robotique humanoïde, puis à l’Inria et chez Meta. Sa lecture est claire : l’IA physique, c’est-à-dire l’IA appliquée au monde réel, se construit à partir de l’IA générative. D’où des travaux centrés sur des modèles capables de générer des actions exécutables par une machine.
Naviguer, manipuler, raisonner
Mistral travaille sur trois familles d’algorithmes. La première concerne la navigation : permettre à un robot de se repérer dans un bâtiment, avec des débouchés dans l’inspection ou le transport de colis. La deuxième vise la manipulation : saisir, déplacer et agencer des objets variés, y compris des objets mous, longtemps difficiles à gérer pour une machine. La dextérité devient ici décisive, puisque le robot doit contrôler finement sa pince ou sa main.
Dans les démonstrations présentées, deux bras robotisés ouvrent un sac de sport, en sortent des objets et les posent sur une table. Sur une autre séquence, ils positionnent et clipsent un couvercle sur une boîte en plastique, ou répondent à une commande vocale leur demandant de placer une banane dans une assiette bleue.
Un cerveau à deux modèles
La troisième brique, le raisonnement, doit permettre au robot de définir lui-même les étapes pour atteindre un objectif. Si on lui demande de débarrasser la table, il doit décomposer la consigne : attraper les assiettes sales, les mettre dans l’évier, ranger la vaisselle propre. Pour cela, Mistral combine deux modèles, un VLM (vision-langage) et un VLA (vision-langage-action).
Le VLM reçoit une instruction sous forme de texte et en déduit, par exemple, l’endroit où doit se rendre le robot. Le VLA détermine ensuite comment y parvenir concrètement. Mistral ne donne pas de calendrier précis, mais vise un déploiement industriel dès que le taux de réussite et le rendement seront jugés suffisants. Pour la France, c’est une carte de plus dans une course à l’IA physique où Wandercraft, Genesis AI ou Enchanted Tools avancent déjà.