Chine et Asie

X Square Robot ouvre le code de XRZero-G0 : collecter des données sans robot et diviser par 20 le besoin de démonstrations réelles

Par La Rédaction ⏱ 3 min de lecture

Entraîner un robot coûte cher, surtout en données. La startup chinoise X Square Robot vient d’ouvrir le code de XRZero-G0, un cadre conçu pour collecter des démonstrations sans robot physique, puis les transformer en données réellement exploitables pour l’apprentissage. Une réponse au goulet d’étranglement qui freine toute l’IA incarnée.

Le vrai frein, c’est la donnée

Faire fonctionner un robot par téléopération est lent et coûteux. Une journée ne produit qu’un nombre limité de démonstrations. La collecte sans robot offre une alternative séduisante, mais elle souffrait d’un défaut majeur : l’absence de contrôle qualité systématique et d’intégration avec l’entraînement. Résultat, beaucoup de données inutilisables.

XRZero-G0 attaque ce problème de front. Le système est co-conçu côté matériel et logiciel, et s’accompagne du G0-Dataset, un grand ensemble multimodal validé, publié pour la communauté robotique mondiale.

Aligner l’humain et le robot

Un robot perçoit le monde sous plusieurs angles : une caméra sur la tête pour le contexte global, des caméras aux poignets pour la manipulation fine. La plupart des systèmes sans robot ne captent que la vue poignet d’un démonstrateur humain, ce qui crée un écart entre l’entraînement et le déploiement réel.

Pour combler ce fossé, XRZero-G0 utilise un système de captation multi-vues aligné. Il combine une caméra de tête et deux caméras de poignet, puis projette ces observations dans une représentation partagée compatible avec la perception du robot. Une interface VR portable et des pinces interchangeables permettent à l’opérateur de générer des démonstrations directement transférables à différents corps de robots.

Une boucle fermée pour filtrer le bon grain

La qualité des données reste le nerf de la guerre. XRZero-G0 formalise un pipeline en boucle fermée : collecte, inspection, entraînement, évaluation. À chaque niveau, des garde-fous. La cohérence géométrique multi-vues réduit les décalages visuels. La cinématique inverse du corps entier, avec contraintes de collision et de limites articulaires, élimine les trajectoires invalides. Enfin, le rejeu sur robot réel sert de validation finale.

Les expériences montrent un rendement effectif d’environ 85 % de données exploitables en conditions contrôlées. C’est une hausse nette de la part d’échantillons réellement entraînables.

La loi du 10 pour 1

Le résultat le plus marquant de l’étude concerne le mélange des données. Combiner environ 10 épisodes sans robot avec 1 épisode sur robot réel suffit à atteindre des performances comparables à un jeu de données entièrement réel sur les tâches évaluées. Les données sans robot apportent la couverture comportementale et la compréhension des tâches, tandis qu’une petite dose de données réelles ancre les facteurs propres au corps, comme la latence moteur et le frottement.

Cette stratégie réduit le besoin en données sur robot réel jusqu’à 20 fois en conditions expérimentales. Construit sur ce cadre, le G0-Dataset offre plus de 2 000 heures de démonstrations multimodales validées, couvrant la vision, le toucher et l’audio. De quoi alimenter le pré-entraînement à grande échelle et les transferts entre robots différents.