Industrie

Groq lève 650 millions de dollars pour devenir le cloud d’inférence IA, six mois après le deal de 20 milliards signé avec Nvidia

Par La Rédaction ⏱ 4 min de lecture

Groq remonte sur le ring. La startup américaine de puces dédiées à l’inférence IA cherche à lever 650 millions de dollars auprès de ses investisseurs historiques, selon Axios. Une opération qui marque la phase deux de la société, six mois après l’accord à 20 milliards de dollars signé avec Nvidia en décembre 2025 et qui avait largement vidé son capital.

L’accord avec Nvidia n’était pas une acquisition, mais une licence de la technologie hardware de Groq accompagnée du transfert de plusieurs cadres clés vers le géant des GPU. Les actionnaires existants avaient alors été désintéressés en cash. Six mois plus tard, l’équipe restante chez Groq, emmenée par le CEO par intérim Adam Winter et le CFO Matt Eng, rappelle ces mêmes investisseurs pour financer la suite.

Macro photo de puce d'inférence Groq LPU sur rack serveur, lumière turquoise
Illustration RoboActu

Du fabricant de puces au cloud d’inférence

Le repositionnement est clair. Groq n’essaie plus de vendre ses LPU, ses Language Processing Units, comme un concurrent direct des GPU H200 et B200 de Nvidia. La société pivote vers l’hébergement d’applications d’inférence pour les développeurs et les entreprises. Concrètement, elle vend du token traité à la milliseconde, pas du silicium dans un rack.

Ce choix colle à la dynamique du marché. L’inférence, c’est le calcul déclenché à chaque prompt envoyé à un modèle. Avec la multiplication des assistants IA, des agents et des copilotes d’entreprise, le volume d’inférence dépasse désormais largement le coût d’entraînement des modèles. Selon les estimations de Goldman Sachs publiées en mai, l’inférence représentera 70% de la dépense compute IA mondiale en 2027, contre 30% pour le training.

Les puces LPU restent un atout

L’architecture LPU de Groq garde un avantage technique. Les benchmarks publics, notamment ceux d’Artificial Analysis, montrent que les LPU servent Llama 3.3 70B à plus de 1 200 tokens par seconde, contre 300 à 400 pour un H100 Nvidia. Cette latence ultra-basse est exactement ce que cherchent les applications agentiques, les agents IA qui doivent enchaîner des dizaines d’appels avant de produire une réponse.

Le contexte du marché s’accélère d’ailleurs nettement. Anthropic a annoncé fin mai une valorisation de 965 milliards de dollars portée par Claude Opus 4.8 et son mode workflows à 1 000 sous-agents. Chaque sous-agent consomme du compute d’inférence. Mistral pousse son offre industrielle avec Airbus, BMW, EDF et CMA CGM. Et OpenAI ouvre onze postes robotique tout en multipliant ses besoins d’inférence sur GPT-5.5.

Disruptive et Infinitium garantissent le tour

Les modalités du tour sont inhabituelles. Disruptive et Infinitium, deux investisseurs déjà au capital, se sont engagés à couvrir la part au pro-rata que les autres actionnaires refuseraient de souscrire. Une assurance qui dit deux choses. D’abord, certains LPs ne croient pas au pivot et préfèrent encaisser leur cash du deal Nvidia. Ensuite, les leads sont prêts à augmenter leur exposition, signe qu’ils misent sur une montée en puissance du segment inférence.

La société sortait fin 2024 d’un tour Series E à 640 millions de dollars valorisé 2,8 milliards. Le deal Nvidia a redistribué les cartes au-dessus. Le nouveau tour, à structure d’investissement existant uniquement, ne donne pas de signal sur la valorisation, mais réinjecte autour de 650 millions, soit l’équivalent du précédent round Series E.

Une stratégie à risque face à AWS, Azure et CoreWeave

Le pari n’est pas sans risque. Hébergeur d’inférence, c’est exactement le métier qu’Amazon Web Services pousse avec Bedrock, Microsoft avec Azure AI Studio et CoreWeave avec son cloud spécialisé GPU. La différenciation de Groq tient à sa vitesse pure et à un modèle de pricing au token cassé par rapport à ces hyperscalers. Mais le combat technologique se joue désormais autant sur l’écosystème logiciel, la disponibilité globale et l’intégration entreprise que sur le silicium.

Pour l’écosystème robotique et Physical AI, l’enjeu est direct. Les modèles VLA, vision-language-action, embarqués dans les humanoïdes de Figure, 1X ou XPENG nécessitent des temps de réponse de quelques dizaines de millisecondes pour produire des mouvements fluides. Un cloud d’inférence ultra-rapide comme celui que Groq prépare pourrait servir de backbone à ces robots quand le compute embarqué ne suffit plus.