Dossiers

Data drought : pourquoi les humanoïdes ont coûté 6 milliards en 2025 et n’arrivent toujours pas à plier une chemise

Par La Rédaction ⏱ 8 min de lecture

Plus de 6 milliards de dollars ont été investis dans les robots humanoïdes en 2025, selon MIT Technology Review. Et pourtant, malgré cette débauche de capitaux, aucun humanoïde commercial n’est aujourd’hui capable de plier une chemise de manière fiable. Le constat, dressé dans une analyse publiée le 16 mai par TechTimes, résume ce que toute l’industrie appelle désormais la « data drought » : la sécheresse de données. Les robots ne peuvent pas, contrairement à ChatGPT, apprendre en lisant internet. Et la course pour combler ce vide est en train de transformer aussi bien Tesla que les livreurs DoorDash en producteurs de matière première pour l’IA physique.

Le mur des données : 1 million de trajectoires contre 4,5 milliards d’exemples textuels

Un robot qui apprend à essuyer un comptoir a besoin de bien plus qu’une image. Il lui faut des traces multidimensionnelles, parfaitement synchronisées dans le temps : flux vidéo, mesures de force exercée par les actionneurs, position des articulations, commandes motrices. Chaque trajectoire utile doit être enregistrée sur du matériel réel, avec un humain ou un autre robot dans la boucle.

Les chiffres sont parlants. En 2022, l’équipe robotique de Google a fait tourner 13 robots pendant 17 mois dans une cuisine de bureau pour collecter 130 000 trajectoires couvrant 700 tâches. C’était pour entraîner un modèle baptisé RT-1. Le plus gros jeu de données ouvert assemblé à ce jour, Open X-Embodiment, regroupe 60 datasets de 21 institutions et 34 laboratoires : il atteint péniblement 1 million de trajectoires sur 22 types de robots. Pour comparaison, les corpus d’entraînement des modèles de langage contiennent entre 1,5 et 4,5 milliards d’exemples. Soit 1 500 fois plus.

Quatre stratégies de collecte, aucune suffisante

L’industrie a fini par converger vers quatre approches parallèles. La téléopération, d’abord, où un humain pilote physiquement le robot pendant qu’on enregistre tous les capteurs. C’est la donnée la plus qualitative, mais aussi la plus chère. Le Silicon Valley Robotics Center estime que le coût horaire complet est tombé de 340 dollars en 2024 à 118 dollars en mars 2026. Un pilote industriel sérieux nécessite entre 300 et 1 200 démonstrations, soit un budget de 50 000 à 150 000 dollars rien que pour les données.

La simulation, ensuite, via des plateformes comme Isaac Sim de Nvidia. Infiniment scalable et bon marché, mais les moteurs physiques approximent le monde. La friction d’une surface humide, la déformation d’un tissu mou, la dynamique d’une tasse à moitié pleine : autant de phénomènes qui restent durs à modéliser assez précisément pour qu’une politique apprise en simulation transfère proprement sur du vrai matériel. C’est le fameux « sim-to-real gap ».

Troisième voie, la motion capture. Elle suit le corps d’un humain et reporte les mouvements sur le robot. Très efficace pour les démos virales de robots qui dansent ou font des arts martiaux. Beaucoup moins quand la tâche demande un contact physique fin : la main humaine ajuste sa force de prise en continu via des retours tactiles que le matériel robotique actuel ne sait pas reproduire.

Reste la vidéo internet et égocentrique (filmée à la première personne). C’est la source la plus abondante, de plusieurs ordres de grandeur. Elle ne contient ni forces, ni angles articulaires, ni commandes motrices. Juste des pixels. Mais elle peut enseigner au robot un modèle du monde : la structure des scènes, la séquence typique des actions humaines, ce qu’on peut faire avec un objet donné.

Tesla a abandonné la motion capture, Figure a recruté un bailleur à 100 000 logements

Le changement de stratégie le plus spectaculaire de l’année appartient à Tesla. En juin 2025, le directeur du programme Optimus Milan Kovac quitte la société. Ashok Elluswamy, vice-président de l’IA, reprend le dossier. Décision immédiate : on remplace les combinaisons de motion capture et les casques VR par des arrays de cinq caméras montés sur des casques, posés sur les têtes d’ouvriers d’usine qui travaillent normalement, plus des sacs à dos de 14 à 18 kilos de matériel. Des tours de caméras fixes complètent le dispositif.

Figure AI a choisi une autre route. En septembre 2025, le constructeur californien signe un partenariat avec Brookfield Asset Management, le gestionnaire d’actifs qui possède plus de 100 000 logements résidentiels, 46 millions de mètres carrés de bureaux et 15 millions de mètres carrés de logistique dans le monde. L’idée : enregistrer en vidéo égocentrique tous les gestes du quotidien dans ces propriétés. Le projet, baptisé Project Go-Big, a livré son premier résultat en novembre 2025 : entraîné uniquement sur de la vidéo humaine collectée dans les résidences Brookfield, le modèle Helix de Figure a appris à naviguer dans des environnements domestiques encombrés à partir de commandes en langage naturel comme « va vers le frigo », sans jamais avoir vu une seule démonstration robotique.

DoorDash, Sunday Robotics, Encord : la gig economy devient un pipeline de données

Le moment de bascule, c’est mars 2026. DoorDash lance Tasks, une application qui paye ses 8 millions de livreurs américains pour filmer des tâches domestiques avec une caméra fixée sur la poitrine. Une mission demande à l’utilisateur de laver au moins cinq assiettes en gardant chacune bien cadrée. D’autres demandent de plier des vêtements, de faire un lit ou de tailler des plantes. Les vidéos servent à entraîner les modèles internes de DoorDash et ceux de partenaires non nommés dans la distribution, l’assurance, l’hôtellerie et la tech.

DoorDash n’est pas seul. Scale AI et Encord recrutent des data recorders indépendants dans le monde entier. Sunday Robotics, basée en Californie, expédie un « skill capture glove » à travers tous les États-Unis pour que des particuliers enregistrent leurs gestes ménagers. En janvier 2026, Rest of World a documenté à Shanghai des ouvriers passant des semaines entières avec un casque VR et un exosquelette, à répéter le même mouvement d’ouverture de porte de four micro-ondes des centaines de fois par jour pour entraîner le robot d’à côté.

La Chine en a fait une infrastructure nationale

Au début de 2026, le gouvernement chinois avait financé 40 centres d’entraînement de robots dédiés, toujours selon Rest of World. Le plus visible se trouve à Suzhou : le National and Local Co-Built Humanoid Robotics Innovation Center. Des entraîneurs humains y répètent quotidiennement, et des centaines de fois, les mêmes gestes de pliage de linge ou de nettoyage de table, à côté de robots humanoïdes qui les imitent.

Cette industrialisation de la collecte transforme la donnée en bien stratégique, au même titre que les terres rares ou les semi-conducteurs. Et elle pose une question politique inédite : ces dizaines de milliers d’ouvriers chinois, ces millions de livreurs américains, sont-ils conscients de ce qu’ils produisent ? Une enquête de MIT Technology Review en février 2026 a montré que la majorité des travailleurs ne sait pas quelles entreprises robotiques utiliseront leurs vidéos. Le public, lui, surestime largement le niveau d’autonomie réelle des humanoïdes actuels, justement parce que le travail humain qui les entraîne reste invisible.

Notre analyse

La data drought est aux humanoïdes ce que la pénurie de lithium est aux véhicules électriques : un goulot d’étranglement qui ne se résoudra pas avec plus de capital, mais avec une refonte des chaînes d’approvisionnement. Trois lectures se superposent.

D’abord, une lecture économique. Le coût horaire de la donnée téléopérée a chuté de 65 % en deux ans, mais le besoin a explosé : chaque nouveau cas d’usage industriel demande 300 à 1 200 démonstrations. Le marché va se segmenter entre des constructeurs intégrés verticalement (Tesla, Figure) qui produisent leurs données en interne, et des fournisseurs spécialisés (Scale AI, Encord, Sunday Robotics) qui les vendent à la trajectoire. C’est exactement le schéma qui a structuré le marché du training data textuel autour de Scale AI entre 2020 et 2024.

Ensuite, une lecture géopolitique. La Chine a transformé ce qui était un défi technique en politique industrielle, avec 40 centres publics et une main-d’œuvre disponible à grande échelle. Les États-Unis répondent avec la gig economy : DoorDash, Instawork, Uber Eats deviennent autant de pipelines de capture. L’Europe, elle, reste à l’écart, sans dispositif équivalent, ce qui fragilise mécaniquement Figure-Europe, Neura, Pollen, Humanoid et 1X dans la course aux modèles fondationnels d’IA physique.

Enfin, une lecture sociale. Quand un livreur DoorDash filme sa vaisselle pour 50 cents la vidéo, qui détient les droits sur sa cuisine, son corps, sa gestuelle ? Aucun cadre réglementaire ne s’applique aujourd’hui. L’AI Act européen ne couvre pas la collecte de gestes en home setting, le RGPD ne s’applique que partiellement, et le futur Embodied AI Act, dont parlent les fonctionnaires de la Commission, est encore à un stade très préliminaire. Il y a là une fenêtre de tir réglementaire que les constructeurs robotiques préfèrent garder ouverte le plus longtemps possible.

Sources : TechTimes, MIT Technology Review, Figure AI, Rest of World