Chine et Asie

AheadForm Origin F1 : le robot androïde qui parle, écoute et réagit en temps réel grâce à l’IA multimodale

Par La Rédaction ⏱ 3 min de lecture

Une startup chinoise vient de franchir un cap dans le design des robots sociaux. AheadForm a publié cette semaine une démonstration de son robot Origin F1, un androïde capable de converser, d’exprimer des émotions et de synchroniser les mouvements de ses lèvres avec la parole, le tout en temps réel.

L’aspect saisissant : les expressions faciales du robot ne sont pas pré-programmées. Elles sont générées à la volée par un modèle IA baptisé Omni Model, capable de traiter simultanément la vision, l’audio et le langage.

Un visage qui écoute et qui parle vraiment

Le travail central d’AheadForm porte sur les mouvements labiaux. La plupart des robots humanoïdes utilisent des animations figées ou des synchronisations grossières entre le son et la bouche. L’Origin F1 prend le problème différemment : son équipe a développé une architecture basée sur un auto-encodeur variationnel (VAE) combiné à un transformateur de l’action faciale. Résultat : le robot infère lui-même les trajectoires de lèvres directement depuis l’audio de la voix, sans mapping manuel.

Cette recherche a été publiée dans la revue Science Robotics, l’une des publications de référence dans le domaine. La rigueur scientifique derrière l’interface visuelle est donc réelle.

Un androïde pensé pour les interactions humaines

L’Origin F1 n’est pas conçu pour l’industrie ou la logistique. Sa cible est différente : la médiation humaine. La plateforme peut adopter plusieurs identités selon le contexte, ce qui permet de l’utiliser comme enseignant interactif, compagnon émotionnel ou assistant thérapeutique. En pratique, on peut changer la personnalité du robot sans modifier son hardware.

C’est ici qu’intervient l’Omni Model. Ce modèle multimodal traite en continu ce que le robot voit, entend et comprend pour adapter son comportement. Concrètement, si un utilisateur baisse les yeux ou change de ton, le robot peut le détecter et ajuster sa réponse. La démonstration publiée cette semaine montre une interaction fluide, sans les décalages habituellement associés aux robots conversationnels.

Un segment en pleine ébullition

AheadForm s’inscrit dans un écosystème chinois particulièrement actif dans les robots à apparence humaine. Ces dernières années, plusieurs startups ont présenté des androïdes à usage social, dont certains destinés à des cabinets médicaux ou des espaces de service. Mais la plupart restaient cantonnés à des gestes simples et des dialogues scriptés.

Ce qui distingue l’approche d’AheadForm, c’est la combinaison entre une interface physique soignée et une architecture IA flexible. Plutôt que d’imiter un comportement humain précis, le système est entraîné à généraliser à partir de l’audio et de la vision. C’est l’approche qui a fait ses preuves dans les LLMs, appliquée cette fois à un corps.

L’Origin F1 n’est pas encore un produit commercial disponible. Mais avec une publication dans Science Robotics et une démonstration convaincante, AheadForm pose clairement ses pions dans la robotique sociale de haut niveau.