La start-up hongkongaise DAIMON Robotics a publié en avril Daimon-Infinity, qu’elle présente comme le plus grand jeu de données omni-modal jamais constitué pour l’IA physique. Le projet associe Google DeepMind, la Northwestern University, la National University of Singapore et China Mobile, et il vient combler ce que beaucoup d’experts considèrent comme le maillon manquant des robots actuels : la perception fine du toucher.
Un capteur tactile haute résolution dans une phalange
Fondée il y a deux ans et demi, DAIMON s’est fait connaître par un capteur tactile basé sur la vision, monochromatique, qui loge plus de 110 000 unités de détection effectives dans un module de la taille d’un bout de doigt. Le principe : une caméra interne observe la déformation d’un coussin élastique au contact d’un objet, et l’image qui en résulte permet d’inférer la force, le glissement, le frottement, la texture et même certaines propriétés matérielles de la surface touchée.
Cette approche, déjà popularisée par les capteurs GelSight de l’écosystème universitaire américain, atteint chez DAIMON un niveau de finesse inédit. La société revendique une utilisation déjà large par des laboratoires académiques et plusieurs grands fabricants de robots humanoïdes, qui intègrent ses doigts artificiels à leurs mains pour résoudre des tâches où la vision seule plafonne, comme manipuler du tissu, ouvrir un emballage ou évaluer la mûreté d’un fruit.
Daimon-Infinity, des millions d’heures de données par an
Le jeu de données Daimon-Infinity rassemble plus de 80 scénarios réels et plus de 2 000 compétences humaines, allant du pliage de linge à la maison à l’assemblage en chaîne d’usine. Sa particularité tient au volume : DAIMON exploite ce qu’elle appelle un réseau de collecte distribué hors laboratoire, capable de générer plusieurs millions d’heures de données par an. Plutôt que de centraliser l’enregistrement dans une seule usine de captation, l’entreprise déploie ses dispositifs chez des partenaires industriels et de service pour collecter des interactions réelles.
Pour amorcer la communauté, DAIMON a mis en open source 10 000 heures de cette base, un volume considérable pour la robotique. « Nous considérons la collecte de données à grande échelle non seulement comme notre avantage compétitif unique, mais aussi comme une responsabilité envers la communauté », explique Michael Yu Wang, cofondateur et chercheur en chef de la société. Ce dernier a fondé l’Institut de robotique de l’Université des sciences et technologies de Hong Kong et fait partie des Fellows IEEE.
L’architecture VTLA, ajouter le toucher au langage des modèles d’IA
Sur le plan logiciel, DAIMON pousse une architecture qu’elle baptise VTLA pour Vision-Tactile-Language-Action, en élargissant le standard VLA déjà utilisé par les acteurs comme Physical Intelligence ou Figure. L’idée : élever le tactile au rang de modalité de premier ordre, à parité avec la vision et le langage. Quand un robot tente de saisir une tasse, son modèle ne se contente plus d’interpréter une caméra et un ordre verbal, il intègre aussi en temps réel ce que ses doigts ressentent.
L’enjeu dépasse la démonstration. Pour passer des laboratoires aux usines et aux maisons, les modèles fondamentaux de robotique manquent cruellement d’interactions physiques annotées. Les vidéos YouTube ne suffisent pas, parce qu’elles ne contiennent pas les forces de contact, les frottements ou les déformations. Daimon-Infinity vise précisément à combler ce trou.
Hôtels, supérettes et chaînes d’assemblage comme premiers terrains
Selon Michael Yu Wang, les premiers déploiements grand public viendront probablement de l’hôtellerie, des supérettes chinoises et des lignes d’assemblage industriel, des environnements où la manipulation fine d’objets variés constitue le goulot d’étranglement actuel. Le pipeline de traitement développé par DAIMON intègre les retours tactiles aux trajectoires de mouvement, à la vision et au langage naturel pour produire un format directement exploitable par les modèles d’apprentissage automatique.
L’arrivée de Google DeepMind comme partenaire est un signal fort. Le laboratoire britannique entraîne déjà ses propres modèles fondamentaux pour la robotique, et l’accès à un volume de données tactiles aussi conséquent constitue une matière première précieuse pour ses modèles Gemini Robotics. Pour DAIMON, c’est aussi une validation industrielle face aux quelques concurrents qui tentent de standardiser la perception tactile, comme Sanctuary AI au Canada ou Tencent au sein de l’écosystème chinois.
Reste à voir si la communauté open source réussira à exploiter ces 10 000 heures pour produire des modèles tactiles transférables, condition pour que la promesse de DAIMON se traduise en robots réellement plus habiles dans nos environnements quotidiens.