Physical Intelligence devoile π0.7, un cerveau de robot qui improvise sur des taches jamais apprises

Physical Intelligence, la startup de San Francisco valorisée 5,6 milliards de dollars, a publié jeudi 16 avril une nouvelle recherche qui secoue la communauté robotique. Son modèle π0.7 parvient à faire exécuter à des robots des tâches sur lesquelles il n’a jamais été entraîné, selon un article de blog relayé par TechCrunch. Les chercheurs eux-mêmes disent avoir été pris de court par les résultats.

La propriété mise en avant s’appelle « généralisation compositionnelle ». En clair, le modèle combine des compétences apprises dans des contextes différents pour résoudre un problème inédit. Jusqu’ici, entraîner un robot passait par un apprentissage par cœur : on collectait des données pour chaque tâche, puis on entraînait un modèle spécialisé. Cette logique de silos disparaît avec π0.7.

L’exemple de la friteuse à air

La démonstration la plus commentée porte sur une friteuse à air. Le robot n’en avait quasiment jamais vu pendant l’entraînement. L’équipe a retrouvé deux épisodes seulement dans le corpus : un autre robot qui fermait l’appareil, et une séquence issue d’un jeu de données open source où un troisième robot y déposait une bouteille en plastique sur instruction humaine.

Avec ces deux fragments et un préentraînement général sur des données web, π0.7 a assemblé une représentation fonctionnelle de l’appareil. Sans aucune consigne supplémentaire, il tente de cuire une patate douce avec un résultat passable. Guidé étape par étape en langage naturel, il y parvient. Lucy Shi, chercheuse chez Physical Intelligence et doctorante à Stanford, reconnaît la part de mystère : « c’est très difficile de savoir d’où vient la connaissance, ou ce qui va marcher ou échouer ».

Un effet GPT pour la robotique ?

Sergey Levine, cofondateur de l’entreprise et professeur à UC Berkeley, fait le parallèle avec les grands modèles de langage. « Une fois que le modèle passe le cap où il arrête de refaire uniquement ce qu’il a vu dans les données pour se mettre à recombiner les choses, les capacités grimpent plus que linéairement avec la quantité de données ». Cette propriété d’échelle favorable est ce qui a rendu possible la vague GPT.

L’équipe a comparé π0.7 à ses propres modèles spécialistes, entraînés tâche par tâche. Le modèle généraliste tient la comparaison sur plusieurs chantiers complexes : faire un café, plier du linge, assembler un carton. Il ne surpasse pas les spécialistes sur chaque tâche prise isolément, mais il couvre l’ensemble avec un seul modèle. Un argument économique de poids pour les intégrateurs qui redoutent de maintenir cinquante modèles différents dans une usine.

Les limites assumées

Physical Intelligence évite l’emballement marketing. π0.7 ne sait pas encore enchaîner des tâches complexes à partir d’une seule consigne haute. « Tu ne peux pas lui dire ‘fais-moi griller du pain' », précise Levine. « Mais si tu le guides, ‘pour le grille-pain, ouvre cette partie, appuie sur ce bouton’, alors ça marche plutôt bien ». L’article utilise un vocabulaire prudent : « premiers signes » de généralisation, « démonstrations initiales ».

Deux autres limites méritent d’être posées. D’abord, les benchmarks standards n’existent pas vraiment en robotique, ce qui rend la validation externe difficile. Ensuite, le succès dépend beaucoup de la qualité du prompt. Une expérience sur la friteuse à air a commencé avec 5 % de réussite avant de grimper à 95 % après une demi-heure de réécriture des consignes. Le modèle apprend vite, mais le prompt engineering reste un art.

Un signal pour l’industrie

Physical Intelligence a levé plus d’un milliard de dollars à ce jour. Parmi ses soutiens, on retrouve Lachy Groom, investisseur historique de Figma, Notion et Ramp. L’entreprise se positionne en fournisseur d’un cerveau généraliste utilisable par plusieurs plateformes robotiques, à la manière dont OpenAI vend ses API aux éditeurs de logiciels. C’est une brique qui manquait au secteur.

Les constructeurs de robots comme Figure, 1X ou Boston Dynamics développent leurs propres piles logicielles. Si π0.7 et ses successeurs tiennent leurs promesses, le rapport de force va changer. Une usine ne paiera plus un robot et son logiciel ensemble, mais un robot certifié compatible avec un cerveau tiers. Le schéma ressemble à celui des PC des années 1980, quand Intel et Microsoft ont détaché la couche logicielle des fabricants de machines. La question pour les prochains mois est de savoir qui, de Physical Intelligence, Google DeepMind avec Gemini Robotics-ER ou Generalist AI avec GEN-1, prendra la position dominante.

L’exemple de la friteuse à air

Un effet GPT pour la robotique ?

Les limites assumées

Un signal pour l’industrie

À lire aussi

Figure 02 chez BMW, Optimus chez Tesla, CyberOne chez Xiaomi : les robots humanoïdes entrent dans les vraies usines

Dans les collines de Hangzhou, des robots-chiens transportent le thé Longjing pour JD Logistics

Vancouver devient le premier hôpital canadien à confier la préparation des chimiothérapies à des robots KIRO Oncology