Intelligence Artificielle

MolmoAct 2 : Ai2 sort un modèle robotique open source 37 fois plus rapide et un dataset bimanuel record de 720 heures

Par La Rédaction ⏱ 5 min de lecture

L’Allen Institute for AI vient de publier MolmoAct 2, son nouveau modèle open source pour la robotique. Selon Ai2, ce modèle de raisonnement à l’action surpasse les modèles propriétaires sur le marché et exécute les tâches du monde réel jusqu’à 37 fois plus vite que la première version. Bonus pour la communauté : un dataset de plus de 720 heures de démonstrations bimanuelles est livré avec.

L’annonce du 5 mai 2026 ne passe pas inaperçue. Dans la course aux modèles de fondation pour robots, les acteurs propriétaires comme Physical Intelligence, Figure AI ou Skild AI gardent jusqu’ici une avance jugée confortable. Avec MolmoAct 2, l’institut basé à Seattle prouve qu’un modèle ouvert peut tenir la cadence sur des benchmarks industriels.

Visuel officiel du modele MolmoAct 2 de l Allen Institute for AI illustrant son architecture de raisonnement 3D pour robots
Crédit : Allen Institute for AI

Une architecture reconstruite de zéro

Pour bâtir MolmoAct 2, Ai2 n’a pas étendu son modèle de compréhension vidéo Molmo 2. L’institut a redessiné l’architecture en partant de Molmo 2-ER, une variante spécialisée dans le raisonnement incarné. Cette base a été entraînée sur plus de 3 millions d’exemples mêlant pointage d’images, détection d’objets, raisonnement spatial abstrait, multi-images et questions-réponses spatiales sur photos et vidéos.

Le résultat associe ce raisonnement 3D à un module dédié à la génération d’actions robotiques. En clair, le modèle « réfléchit » en trois dimensions avant d’agir, plutôt que de mapper directement une perception à un geste. Une variante MolmoAct 2-Think pousse l’optimisation plus loin en concentrant la prédiction de profondeur uniquement sur les zones dynamiques de la scène, ce qui apporte un gain de 17 % en vitesse selon les benchmarks internes.

720 heures de données bimanuelles ouvertes

Le second pilier de l’annonce, c’est le dataset. MolmoAct 2-Bimanual YAM est présenté par Ai2 comme la plus grande base de données open source jamais publiée pour la manipulation tabletop à deux bras. Plus de 720 heures de démonstrations couvrent des tâches comme plier des serviettes, scanner des courses, recharger un smartphone ou débarrasser une table.

Pour donner du contexte, la première version de MolmoAct s’entraînait sur seulement 22 heures de données curées en interne sur trois mois. Le saut quantitatif est massif. Ai2 a complété cette base avec un mélange d’autres datasets robotiques pour exposer le modèle à différents bras, configurations de caméra, schémas de contrôle et styles de tâches.

Côté instructions linguistiques, l’équipe a réannoté la bibliothèque robot pour réduire les répétitions et les annotations de basse qualité. Le nombre d’étiquettes uniques est passé de 71 000 à environ 146 000, ce qui doit aider le modèle à mieux généraliser quand un humain reformule une consigne.

Premier test grandeur nature à Stanford

Pour valider le modèle hors laboratoire, Ai2 a noué un partenariat pilote avec le Cong Lab à la faculté de médecine de Stanford. Le laboratoire dirigé par le professeur Le Cong travaille sur l’édition génétique CRISPR, une technique qui demande beaucoup de manipulations précises sur paillasse : pipetage d’échantillons, déplacement entre stations, opération d’équipements à haute tolérance.

L’enjeu est concret. Une erreur en cours de manipulation peut s’accumuler et détruire un run de tests entier. Après avoir testé une gamme de modèles généralistes fine-tunés sur ce flux, l’équipe Stanford a conclu que MolmoAct 2 montrait un fort potentiel pour assister les opérations de wetlab. Ai2 a aussi soumis le modèle à des tests de robustesse sur des instructions reformulées, des positions d’objets décalées, des objets distracteurs et des substitutions.

Les limites assumées

Ai2 ne masque pas les zones d’ombre. MolmoAct 2 peut buter quand le grappin bloque la vue de la caméra, quand le bras ne peut pas suivre la cadence du système de contrôle, ou quand une tâche exige une dextérité plus fine que ce que le hardware autorise. Ce sont les mêmes problèmes que rencontrent tous les systèmes robotiques actuels.

L’argument open source prend ici toute sa force. En publiant les poids, le dataset et bientôt le code d’entraînement, Ai2 invite la communauté à inspecter, étendre et adapter le modèle à de nouvelles machines. Pour les laboratoires académiques européens et les startups qui n’ont pas les moyens de financer un cluster d’entraînement à 100 millions, c’est une rampe de lancement directe vers la robotique de pointe.

Reste à voir si les performances tiennent en production. Le marché robotique est encombré de démonstrations spectaculaires qui ne se traduisent pas en déploiements. Mais avec un modèle ouvert qui revendique de battre les solutions propriétaires sur des benchmarks reconnus, la pression monte d’un cran sur les acteurs fermés du secteur.