Intelligence Artificielle

PhAIL, le benchmark qui révèle le vrai niveau des robots IA : 5 % de la productivité humaine

Par La Rédaction ⏱ 3 min de lecture

Positronic Robotics vient de lancer PhAIL (Physical AI Leaderboard), le premier benchmark ouvert qui mesure la performance des modèles d’IA robotique sur du matériel réel, dans des conditions industrielles. Fini les taux de réussite de laboratoire : ici, on parle en unités par heure et en temps moyen entre deux pannes.

Un constat brutal : les meilleurs modèles plafonnent a 5 % de la productivité humaine

Les premiers résultats sont sans appel. PhAIL teste quatre modèles de fondation robotique (OpenPI/pi0.5, GR00T de Nvidia, ACT et SmolVLA de Hugging Face) sur une tache de tri bac-a-bac, l’une des opérations les plus courantes en logistique. Meme configuration matérielle pour tous : un bras Franka FR3, les memes objets, des centaines d’essais en aveugle.

Le meilleur modèle atteint 64 unités par heure. Un opérateur humain en téléopération sur le meme robot ? Cinq fois plus rapide. Et ce n’est pas une question de matériel : le robot peut physiquement aller bien plus vite que ce que les modèles IA lui demandent de faire. Le goulot d’étranglement, c’est la politique de controle.

Pourquoi c’est un tournant

« L’IA physique doit d’abord faire ses preuves la-dessus, et PhAIL est la manière dont on mesure si elle en est capable », affirme Sergey Arkhangelskiy, fondateur de Positronic Robotics. Le message est clair : tant que l’industrie évaluera les modèles robotiques avec des métriques de laboratoire, le fossé entre la promesse et la réalité restera invisible.

Chaque essai est filmé, chaque donnée de télémétrie publiée. N’importe qui peut vérifier les résultats, comparer les modèles et identifier les points faibles. Cette transparence tranche avec les vidéos de démonstration soigneusement sélectionnées qui dominent la communication des startups robotiques.

Un consortium ouvert

PhAIL n’est pas un produit propriétaire. L’initiative fonctionne comme un consortium, avec le fournisseur cloud Nebius et la société de données Toloka parmi les premiers partenaires. De nouvelles taches et configurations matérielles seront ajoutées progressivement pour couvrir un spectre plus large d’applications industrielles.

Pour les fabricants de robots, les intégrateurs et les clients qui hésitent a investir dans l’IA physique, PhAIL apporte enfin un outil de décision objectif. Et le verdict actuel est limpide : les modèles de fondation robotique progressent vite, mais ils sont encore loin de remplacer un opérateur humain dans les taches les plus basiques de l’entrepot.