Faut-il être Optimus ?
Les cimetières sont remplis de sociétés qui n’ont pas compris les règles du jeu.
Dernière conférence sur les résultats de Tesla:
Martin Viecha
Nous vous remercions. La question suivante est posée par Siddharth : Quel est le calendrier pour la première production de la ligne de production en volume d'Optimus ? Et quels sont les obstacles à surmonter pour y parvenir ?
Elon Musk -- Directeur général et architecte de produits
Vous savez, Optimus est évidemment un produit très nouveau, un produit extrêmement révolutionnaire. C'est quelque chose qui, je pense, a le potentiel de dépasser de loin la valeur de tout ce que Tesla a combiné. Et quand on pense à une économie, l'économie est la productivité par habitant multipliée par le nombre d'habitants. Et s'il n'y avait pas de limite au nombre d'habitants ? Il n'y aurait pas de limite à l'économie. Et -- et les technologies qui -- les technologies de l'IA ont été développées pour la voiture se traduisent assez bien pour un robot humanoïde parce que la voiture n'est qu'un robot sur quatre roues.
Vous savez, Tesla est sans doute déjà le plus grand fabricant de robots au monde ; ce n'est qu'un robot à quatre roues. Optimus est donc un robot humanoïde avec des bras et des jambes. C'est de loin le robot humanoïde le plus sophistiqué qui soit développé dans le monde. Je pense que nous avons de bonnes chances d'expédier un certain nombre d'unités Optimus l'année prochaine.
L’intérêt des robots « humanoïdes » réside dans le fait qu’ils peuvent se substituer à l’homme sans changer les processus de production de biens ou de services. L’outil de production peut être conservé et la productivité multipliée par la substitution d’une main d’œuvre « quasiment » gratuite. C’est typique des projets d’Elon Musk de faire levier sur l’existant pour en transformer l’usage à des coûts raisonnables:
en dotant les fusées de la capacité de se poser, et donc de resservir, il met à mal la NASA et Arianespace habitués à la fusée à usage unique;
en équipant ses Tesla d’un simple jeu de caméras alimentant en temps réel une intelligence artificielle centrale, il espère remplacer le chauffeur à moindre coût. Plus il y aura de Tesla sur les routes, plus l’IA connaitra le comportement des meilleurs chauffeurs dans les situations les plus difficiles. La multiplicité des données recueillies sur des millions de voitures et centralisées sera largement plus efficace que des systèmes de hardware complexes et onéreux (à base de LiDAR , radar et caméras redondants) installés dans les voitures et sur les routes.
En envoyant des satellites basique mais en grand nombre en basse orbite (550 km environ), Starlink offre un service internet à faible latence capable de gérer le streaming de manière plus efficace et moins coûteuse que les satellites traditionnels envoyés à 36 000 km d’altitude.
Et maintenant avec Optimus, il pense pouvoir créer un humanoïde à $20 000.
La supériorité d’Elon Musk est de penser ensemble innovation et effet d’échelle. Il part de matériaux relativement bon marché compensés par une part logicielle importante qui fait le job traditionnellement dévolu au matériel. De surcroît le logiciel est constitué de briques open source, ce qui permet de réduire les coûts. Le produit est donc relativement bon marché, innovant grâce au logiciel mais peu performant au départ. Cependant il se vend grâce à sa forte dose d’innovation. La partie logicielle s’améliore à proportion du nombre d’utilisateurs grâce aux données fournies et à l’effet réseau. Le produit devient alors supérieur aux alternatives reposant sur une approche avant tout matérielle. Cette représentation imagée par ChatGPT donne l’idée:
Généralement, les innovations d’Elon Musk sont plutôt moquées au départ: les fusées terminent à l’eau, les Tesla brulent, quand l’eau ne rentre pas dans l’habitacle, le Cybertruck ne résiste pas au lancer d’une balle de pétanque, l’auto pilote conduit dans le fossé, Optimus trébuche et termine à terre, etc. Mais au final, le modèle Y est par exemple la voiture la plus vendue au monde en 2023…
Qu’en est-il de ce projet d’humanoïde ?
Boston Dynamics, le précurseur
Boston Dynamics occupe le terrain depuis plus de 20 ans, montrant régulièrement au travers de vidéos impressionnantes les prouesses de ses robots. Par exemple celle-ci
Sa feuille de mission est éloquente: “ imaginer et créer des robots exceptionnels qui enrichissent la vie des gens.” Ces robots sont tellement “exceptionnels” qu’après plus de 30 ans, quasiment personne ne les utilise. Le chiffre d’affaires annuel de Boston Dynamics, selon les sources se situe entre $ 30 millions et $130 millions. Spot, leur robot chien grand public s’est vendu d’après le site internet de Boston Dynamics à 1 000 exemplaires. Le prix unitaire indiqué étant de $ 75 000, les recettes cumulées liées à ce robot à tout faire s’élèveraient au maximum à $75 millions.
Boston Dynamics a été acheté en 2020 par Hyundai Motor Group. Sa culture est celle d’un constructeur automobile qui fabrique de la belle mécanique, et non pas du logiciel sur pattes.
Comparons les deux robots “humanoïdes” Atlas (Boston Dynamics) et Optimus (Tesla) pour bien comprendre les différences de conception et les implications futures:
Atlas est principalement composé de métal, titane, aluminium, avec une carapace en plastique. Il pèse 89 kg. Optimus (version 2) est à 60% aluminium et 40% polyuréthane. Il pèse 63 kg.
Atlas est un athlète râblé (taille 1,5m), capable de prouesses physiques tandis qu’Optimus plus élancé (1,78 m) compte sur ses mains agiles pour effectuer des tâches délicates. Ce dernier est bâti pour le travail manuel, pas les jeux olympiques.
Atlas a une perception étroite du monde grâce à un système de vision pré-programmé s’appuyant sur des LiDAR et caméras. Il est efficace sur ce qu’on lui a dit de faire mais pas très souple. Sa logique est causale. Optimus utilise un système de vision à base de caméras et senseurs associés à une intelligence artificielle (réseau de neurones open source) nourrie par les données issues de l’expérience collective: ce système est déjà éprouvé dans les voitures (FSD ou Full Self Driving) qui sont d’après Elon Musk des robots montés sur roue.
Enfin Atlas a un système de transmission hydraulique quand celui d’Optimus est électrique. Atlas est donc plus lent au démarrage et demande plus d’entretien qu’Optimus, mais sa force brute est supérieure.
Atlas est d’abord une pièce de matériel mue par un ordinateur taillé pour la puissance; son approche est déterministe, c’est à dire que l’ordinateur prévoit tous les cas (si X alors Y). Il vaut $150 000 pièce. Optimus est d’abord une IA (voisine de celle de l’Autopilot Tesla) incorporée à une pièce de matériel bon marché, destinée à faire du travail de précision: l’accent est mis sur les mains. Atlas est tout de suite à son maximum alors qu’Optimus comme un enfant (plutôt comme une IA) a besoin d’être entraîné. L’approche Optimus est probabiliste. Elon Musk voit l’effet d’échelle à terme d’un système bien entraîné quand Boston Dynamics voit la perfection immédiate. Il estime que le leader est emprunt du même syndrome que les promoteurs de la voiture autonome: le primat du matériel sur le logiciel, le primat de la recherche de tous les cas possibles sur l’apprentissage. Or le matériel vieillit et se dégrade alors que le logiciel se bonifie avec le temps (surtout quand ce logiciel est une IA). L’effet d'échelle du logiciel est supérieur à celui du matériel. Miser sur le logiciel est donc une approche pertinente pour baisser les coûts.
Sur ma route
Comme le chantait Black M, il y a eu du move… avec l’IA générative. Elon Musk qui a lancé son projet Optimus en août 2021 ne s’attendait probablement pas à ce qu’Open AI puisse devenir un compétiteur sérieux :
SUNNYVALE, Californie, Feb. 29, 2024 /PRNewswire/ -- Figure, société de robotique IA développant des robots humanoïdes à usage général, a annoncé aujourd'hui avoir levé 675 millions de dollars en financement de série B à une évaluation de 2,6 milliards de dollars avec des investissements de Microsoft, OpenAI Startup Fund, NVIDIA, Jeff Bezos (par le biais de Bezos Expeditions), Parkway Venture Capital, Intel Capital, Align Ventures, et ARK Invest. Cet investissement permettra à Figure d'accélérer son calendrier de déploiement commercial des humanoïdes.
Parallèlement à cet investissement, Figure et OpenAI ont conclu un accord de collaboration visant à développer des modèles d'IA de nouvelle génération pour les robots humanoïdes, en combinant les recherches d'OpenAI et les connaissances approfondies de Figure en matière de matériel et de logiciels robotiques. Cette collaboration vise à accélérer le calendrier commercial de Figure en améliorant les capacités des robots humanoïdes à traiter et à raisonner à partir du langage.
"Nous avons toujours eu l'intention de revenir à la robotique et nous voyons une voie avec Figure pour explorer ce que les robots humanoïdes peuvent réaliser lorsqu'ils sont alimentés par des modèles multimodaux très performants. Nous sommes époustouflés par les progrès réalisés par Figure à ce jour et nous sommes impatients de travailler ensemble pour ouvrir de nouvelles possibilités sur la façon dont les robots peuvent aider dans la vie quotidienne", a déclaré Peter Welinder, vice-président des produits et des partenariats chez OpenAI.
L’approche d’OpenAI est intéressante car elle est semblable à celle d’Elon Musk qui est de privilégier le cerveau plutôt que le corps, mais avec un cerveau potentiellement plus développé que celui d’Optimus. Le LLM peut en outre s’adapter plus facilement à son maitre qu’une IA traditionnelle car il comprend les commandes exprimées en langage simple. Comprendre les ordres dans leur subtilité est une grande avancée pour promouvoir un robot humanoide.
En fait, l’IA générative rebat les cartes et les projets ambitieux se multiplient:
Agility Robotics, société financée en partie par Amazon dès son premier round en 2015, va lancer une usine à Salem, dans l’Oregon capable de produire 10 000 humanoides par an. L’usine emploiera 500 personnes. Ses robots sont spécialisés dans la manutention et Amazon sera un client important. L’intégration de l’IA générative dans le cerveau du robot lui donnera des capacités nouvelles et aidera à attirer les capitaux pour produire en masse.
1X Technologies en partenariat avec OpenAI depuis 2022 a lancé un premier robot appelé Eve qui répond aux demandes exprimées en langage vernaculaire. Equipé de roues, il est utilisé principalement dans la logistique et le commerce de détail. Neo, le deuxième robot humanoïde en développement est conçu pour savoir se servir de ses mains. Il viendra alors directement concurrencer Optimus.
Enfin, même Spot, le robot chien de Boston Dynamics, peut être branché par API à ChatGPT. Même si ses capacités à exécuter sont limitées, il peut au moins discuter avec son interlocuteur.
Optimus subitement doit faire face à des concurrents crédibles alimentés aux modèles de fondation (LLMs).
Priorité au LLM
Tout d’abord les modèles Transformer pour le texte (Diffusion pour les images) semblent être l’avenir pour l’IA. Pourquoi ?
Leur simplicité fait leur force: le Transformer calcule ce qui rime, le prochain mot, la prochaine action, en fonction de ce qu’il a déjà enregistré dans son entraînement. Il est dans l’imitation. Appliqué à la conduite par exemple, il va essayer de prévoir ce que ferait un conducteur expérimenté dans un contexte voisin. Le modèle est entraîné sur le comportement des bons conducteurs. Alors qu’un modèle d’IA traditionnel va cartographier le monde entier pour connaître chaque recoin de territoire et anticiper la conduite en fonction des angles, etc. C’est beaucoup plus lourd en calcul et en données.
Ces modèles ne semblent avoir pour limite que la capacité disponible en GPUs. Les améliorations sont proportionnelles à la puissance des modèles, il n’y a pas aujourd’hui d’asymptote visible, contrairement à ce que l’on pouvait croire il y a quelque temps. La direction est l’intelligence artificielle générale et on peut s’attendre à Llama 5,6 et 7 comme à GPT 5 et 6 ou à Gemini 2,5 3 et 4. Mark Zuckerberg, Sam Altman ou Sundar Pichai sont lancés dans la course. Voir mon article Jumeau numérique.
La communauté des développeurs se concentre sur l’amélioration, à GPUs constants, des modèles ainsi qu’à leurs applications. Par exemple, Mistral AI nettoie les données, éliminant du travail pour les GPUs et disposant ainsi de petits modèles performants. Perplexity AI s’attache à formater les LLMs pour la recherche. Grok a inventé une puce qui diminue la latence de manière spectaculaire: le dialogue avec le modèle devient ainsi plus « humain ». Le transformer devient un standard de développement comme l’a été l’architecture X86 ou CUDA. Les codeurs ne cherchent pas l’originalité à tout crin. Il aiment construire sur des briques existantes.
Enfin les sociétés de capital développement vont avoir tendance à favoriser des technologies déjà éprouvées, ce qui peut donner un avantage prononcé aux Transformers.
Dès lors, il est fort probable que le cerveau du robot humanoïde prenne une forme Transformer. Optimus se trouve à priori sur la même ligne de départ que d’autres robots à base de transformers. Sauf que…
Du LLM au LAM
Je rebondis sur ma lettre récente Action ! qui discutait du nouveau produit Rabbit, un appareil exécutant des actions pour le compte de son utilisateur comme des réservations d’hôtel par exemple:
Rabbit est une manifestation concrète d’un nouveau modèle qui complète la génération de textes ou images par la génération d’actions. Son usage peut être généralisé à d’autres actions que la navigation sur internet (pourvu qu’on ait les données). Ce type de modèles est entraîné sur la façon de faire et a pour vocation de remplacer les routines de travail. Une bonne partie des jobs existants, routiniers, pourraient disparaître pour ouvrir la voie à de nouvelles façons de faire inédites (sur lesquels les modèles ne peuvent encore être entraînés).
Le LLM (Large Langage Model) produit du discours à partir de texte, image ou vidéo; le LAM (Large Action Model) produit de l’action à partir d’une entrée texte, image, etc. Rabbit sera probablement un produit relativement lent et aux actions limitées à des clics sur internet. Le robot humanoïde sera l’expression aboutie du LAM, son action s’exerçant à la fois au niveau intellectuel et manuel. Comme un homme le robot devra être rapide (la latence coupe la magie), précis dans ses actions, multi-taches et “imaginatif”. Il devra à la fois avoir un cerveau puissant (beaucoup de GPUs ou équivalents) et être bien formé (avec des données sérieuses). Aujourd’hui le cerveau des robots est construit avec une approche déterministe qui privilégie la fiabilité au détriment de l’étendue des possibilités, donc de l’intelligence. Le standard open source est Robot Operating System, utilisé par Boston Dynamics pour son robot chien Spot par exemple. Les blocs de puce (SOC) sont conçus pour héberger et faire fonctionner le ROS avec le moins de latence possible (temps de réponse du robot), le plus de bande passante possible (étendue de la réponse du robot) et le plus de déterminisme possible (exécution identique pour la même demande). L’approche Tesla ou Transformer vise à faire des robots autonomes, capables de naviguer dans le monde par eux-mêmes, une fois entrainés. Une telle approche parait aujourd’hui de la science fiction surtout que les fabricants actuels de robots font valoir la supériorité de leur approche. Par exemple Acceleration Robotics comparant le cerveau d’Optimus:
Avec le sien:
Cependant l’approche probabiliste, à base d’entrainement, progresse à grands pas, à deux niveaux:
Le hardware
L’écosystème autour du Transformer croît avec des nouveautés toutes les semaines. L’effet d’échelle n’a pas encore trouvé de limites ce qui motive les fabricants de hardware à pousser les performances. Côté entrainement, Nvidia est le leader incontesté grâce à la puissance de ses puces, la possibilité de les brancher en série et le langage de programmation CUDA devenu un standard pour les développeurs. L’entrainement est la tâche à ne pas rater pour fabriquer un bon modèle. C’est pourquoi à ce stade, le coût qui sera amorti sur la durée de vie du modèle importe peu. Si le modèle est bon et donc durable, il n’y aura pas une différence énorme entre un coût initial de $200 millions ou $300 millions. En revanche, s’il est mauvais, même un coût de $50 millions est trop onéreux. Nvidia qui mise sur la puissance brute a toutes les chances de garder le leadership (comme Intel dans les années 1990) et de continuer à constituer des clusters d’entrainement toujours plus performants. Ainsi la capacité de créer des modèles d’action (robotiques) au lieu de modèles de langage va progresser très vite.
Côté inférence en revanche, le coût est récurrent sur la durée de vie du modèle. Ce coût peut être assimilé à une redevance à l’utilisation du modèle. Le minimiser va devenir un impératif pour durer. C’est pourquoi une puce généraliste telle que celles fabriquées par Nvidia n’est pas forcément la bonne solution. Le marché va privilégier des puces spécialisées afin d’économiser de l’énergie et coller parfaitement au travail demandé. Google et Meta gros utilisateurs d’IA ont déjà leurs puces spécialisées. C’est le sens de l’histoire et cela orientera encore d’avantage vers le perfectionnement des modèles Transformers pour lesquels ces puces et leurs générations successives sont conçues. Ces modèles vont largement dépasser la production de langage…
Les données
Pour entrainer des modèles Transformer robotiques, il faut des données. Elles sont en nombre plus restreint que celles servant à entrainer les modèles de langage (tout l’internet). La bataille se situe à ce niveau. Les sociétés comme Boston Dynamics ont certes beaucoup de données mais utilisent une approche déterministe dans laquelle elles sont très encore enferrées. Ce sont les autres comme 1X Technologies ou Figure AI qui vont devoir constituer leur propre jeu de données afin d’entrainer leurs robots. Nat Friedman, ancien président de Github, estime que les données sont le dernier point de blocage pour avoir des robots à base de Transformer:
Il semble qu'il y ait une vague de fond de modèles de base robotiques qui arrivent, alors que nous n'avons pas encore eu ce moment GPT-3 de la robotique où vous avez deux mains sur un bureau et elles peuvent attacher une chaussure ou décorer un gâteau ou assembler un Lego et faire toutes ces choses relativement bien ou d'une manière qui ressemble aux débuts de l'intelligence robotique, mais il semble que cela arrive dans les 12 ou 18 mois à venir. Nous verrons ces démonstrations.
Ce qui permet cette évolution, c'est cette croyance en la mise à l'échelle et quelques percées du côté de l'architecture du modèle, et ce qui la freine, ce sont les données. Tous les efforts déployés pour collecter ces ensembles de données et les premières démonstrations sont vraiment impressionnantes et impliquent des modèles d'apprentissage local pour des choses comme le mouvement, la cinématique, l'équilibre et d'autres choses de ce genre dans certains cas.
Tesla a là un avantage unique. Il a des données sur 5 millions de voitures, des robots montés sur roue d’après Elon Musk. Effectivement ces robots sur roue ont quelque affinité avec Eve de 1X Technologies:
La première tâche d’une IA est de comprendre le contexte, que ce soit du texte ou de la vidéo. Dans le cas du système d’auto pilot Tesla, les données de base sont des vidéos des meilleurs chauffeurs et l’IA apprend à les imiter, avec une sur pondération des moments critiques. Depuis la version 12 de FSD, l’approche a basculé du déterminisme (si x alors y) vers le calcul de probabilités. Un robot humanoïde peut être assimilé à une voiture au ralenti. Si bien que le savoir faire en nettoyage des données qui constitue la base de l’Autopilot Tesla peut également être utilisé pour le cerveau d’Optimus. Cet article explique bien comment fonctionne le moteur à données de Tesla. Le nettoyage de données, on le voit dans le cas de Mistral AI, est un aspect important pour assurer la qualité d’un modèle. Tesla peut là avoir un avantage par rapport aux start up financées par OpenAI par exemple. Il a déjà une expérience de près de 10 ans avec FSD.
La lutte entre Elon Musk et Sam Altman se précise:
Optimus semble avoir l’avantage par rapport à Figure car Tesla a les données et l’expérience en hardware (y compris le SOC-system on a chip-).
OpenAI cependant a la maîtrise du cerveau même s’il lui manque les données et le hardware. Le rapprochement avec Microsoft est une partie de la solution. Le projet de création d’une mega-usine à puces en est une autre.
Cela met dans une autre lumière la plainte d’Elon Musk contre OpenAI qui prétend:
En réalité, OpenAI Inc. s'est transformée en une filiale de facto à code source fermé de la plus grande entreprise technologique du monde : Microsoft".
Les deux maux sont 1/ de garder propriétaire une IA supérieure, 2/ de disposer du hardware pour l’entraîner et la faire tourner…
Bonne semaine,
Hervé