Jumeau numérique
Les cimetières sont remplis de sociétés qui n’ont pas compris les règles du jeu.
Mark Zuckerberg le 1er février 2024:
Une chose qui est devenue plus claire pour moi au cours de la dernière année est que cette prochaine génération de services nécessite la construction d'une intelligence générale complète. Auparavant, je pensais que parce que beaucoup des outils étaient sociaux, commerciaux, ou peut-être orientés médias, il serait possible de livrer ces produits en résolvant seulement un sous-ensemble des défis de l'IA. Mais maintenant, il est clair que nous allons avoir besoin que nos modèles soient capables de raisonner, planifier, coder, se souvenir, et de nombreuses autres capacités cognitives afin de fournir les meilleures versions des services que nous envisageons. Nous travaillons sur la recherche en intelligence générale dans FAIR depuis plus d'une décennie, mais maintenant l'intelligence générale sera également le thème de notre travail produit.
Décidément, Mark Zuckerberg ne manque pas d’ambition. Après ses investissements massifs dans le métavers (où il fait cavalier seul, sous le scepticisme général), le voici lancé dans le rêve de l’IA générale. Et pour assouvir cette ambition, il faut des GPUs. Mark Zuckerberg:
J’ai récemment partagé que d’ici la fin de cette année, nous aurons environ 350 000 H100s et d’autres GPU qui équivaudront à environ 600 000 H100 équivalents de calcul.
Sachant qu’un H100 de Nvidia vaut environ $40 000, cet investissement en puces seulement représente au bas mot $24 milliards. Il faut y rajouter les serveurs, parcs de données et CPUs qui vont avec. Cet équipement n’est effectivement pas à la portée de toutes les start up…
La tentation du pragmatisme
Devant la pénurie de GPUs à grande échelle, Nvidia en étant le fournisseur presque exclusif, les promoteurs de l’IA générative semblent modérer leurs ambitions. Il ne s’agit plus de brandir le nombre de paramètres du modèle pour convaincre de son efficacité mais de chercher à améliorer le ratio de réponses pertinentes par paramètre. Le nombre de paramètres a constitué le grand argument de ChatGPT, le LLM dominant la première vague de l’IA générative:
Source GPT 4
Les paramètres sont comme des boutons de réglage du modèle qu’il faut conserver en mémoire. Plus il y en a, plus il faut des puces puissantes pour l’entraînement et l’inférence.
Le problème d’une telle approche est le coût. Les utilisateurs sont ils prêts à les supporter compte tenu notamment des hallucinations encore présentes dans les modèles les plus performants ? Les Big Tech n’ont pas envie de subventionner les utilisateurs et s’accordent généralement sur un prix de $20 par mois. Il sera cependant difficile de construire des effets d’échelle avec de tels tarifs; les promoteurs de modèles puissants semblent se résigner à n’avoir qu’une partie limitée de la population comme clients. Ils cherchent donc à développer des modèles moins coûteux avec des astuces pour maintenir une qualité acceptable tout en réduisant coût d’entraînement et d’inférence. Cela implique de redimensionner la puissance de calcul à la baisse:
Prendre des GPUs moins puissants, par exemple des A100 au lieu de H100, quitte à prendre plus de temps pour entraîner les modèles et que ces derniers soient moins réactifs à l’utilisation.
Prendre une marque de puces moins chère que Nvidia (type AMD)
réduire au minimum le nombre de paramètres. Compenser par des données de meilleure qualité pour réduire les hallucinations et une plus grande réactivité pour la réponse aux prompts.
Diviser les paramètres du modèle en différentes sections que l’on charge sur la puce en fonction du prompt (modèle d’experts).
La société Mistral AI est un champion de l’optimisation et parvient à créer des modèles efficaces avec 7 milliards de paramètres ou 8x7 milliards dans le cadre du modèle d’experts. Plus généralement les modèles open source comme Mistral et Llama sont utilisés par des développeurs à faible moyen qui innovent pour contourner le coût lié au nombre de paramètres. Ces solutions semblent nécessaires pour faciliter l’adoption de l’IA générative. Les Big Tech l’ont bien compris qui cherchent aussi à fabriquer des modèles plus réduits. La mode est au SLM (small language model):
Google a conçu Gemini nano, un modèle peu chargé en paramètres destiné aux smartphones Android pour faciliter leur utilisation (assistant)
Microsoft travaille sur un modèle simplifié alternatif à GPT. The Information, le 23 janvier 2024:
Alors que l'utilisation de l'IA générative explose, les coûts relativement élevés de son fonctionnement, par rapport aux tâches informatiques traditionnelles, grimpent également en flèche. Tandis que ces coûts impactent beaucoup plus les startups telles que OpenAI et Anthropic que les entreprises établies comme Microsoft, le groupe de recherche en IA de Microsoft a rapidement évolué l'année dernière pour développer de l'IA qui coûte moins cher à opérer que celle d'OpenAI. La formation de la nouvelle équipe IA reflète l'intention de Microsoft d'utiliser une telle technologie pour les fonctionnalités d'IA qu'elle vend aux clients d'Office ou aux développeurs d'applications qui achètent ce logiciel via Azure. D'autres entreprises, comme Google, ont également cherché des économies alors qu'elles développent leur propre IA conversationnelle, connue sous le nom de modèles de langage à grande échelle.
Apple a dans les cartons un SML qui équipera l’iPhone 16.
Mark Zuckerberg lance donc un pavé dans la marre en prenant une direction opposée à la tendance pragmatique actuelle. Il semble même contredire son Directeur Scientifique IA Yann Lecun, qui en décembre encore expliquait que l’intelligence artificielle générale était à des années lumières et qu’elle servait de prétexte au patron de Nvidia pour promouvoir ses GPUs.
De plus il n’annonce aucune facturation de ses modèles les plus complexes, à l’opposé d’OpenAI, Microsoft, Google, Poe, Perplexity, etc. qui font payer $20 par mois leur version premium. Mark Zuckerberg est il encore à la recherche d’un pari fou comme celui du métavers où va-t-il forcer ses concurrents à réagir et se lancer dans la course de l’IA générale ? Le marché a réagi et propulsé les valeurs technologiques, en premier Nvidia comme le montre le graphique (source Yahoo Finance):
L’accélération est nette depuis le 1er février, date du speech de Mark Zuckerberg. Est-on en présence d’une bulle classique ? Ou y a -t-il quelque substance derrière cette possible course à l’IA générale ?
L’IA générative dépassée ?
Mon impression est que Mark Zuckerberg et Yann Lecun sont sur la même longueur d’onde. Le premier souffle le yin et le second le yang: la direction à long terme est lancée mais le pragmatisme doit l’emporter. Yann Lecun du reste a précisé ses propos depuis le discours de Mark Zuckerberg: il ne croit toujours pas pour l’instant à l’intelligence artificielle générale, pour la bonne raison que l’intelligence humaine elle-même est très spécialisée. Il cite l’exemple du jeu d’échecs où un modèle à $30 peut battre le champion du monde. L’intelligence générale est partagée au sein de l’humanité à travers des milliards d’expériences individuelles: il est vain de prétendre qu’un organisme quelconque va la réunir à lui tout seul grâce à un modèle magique. En revanche, le modèle, comme l’homme peut apprendre à comprendre le monde réel, se souvenir, raisonner et planifier. Yann Lecun rejoint là l’ambition de Mark Zuckerberg annoncée dans son discours du 1er février.
L’IA générative elle se limite à prédire le prochain token en fonction du dernier: elle est très limitée car elle programmée pour comprendre du texte. Yann Lecun veut, non pas une intelligence artificielle générale, mais une intelligence machine avancée, une intelligence qui prédit le monde réel, au lieu de se limiter au texte. Cette intelligence ne sera pas unique, de même que celle de l’homme mais variée en fonction des cultures, groupes d’individus, langues, centres d’intérêt et contexte historique. En effet elle sera entraînée sur l’observation de situations réelles, donc d’humains limités dans leur appréhension du monde, guidés par leur cadre d’analyse et biaisés. Autant d’hommes, autant de situations et autant d’IA en théorie. En pratique, on fera des segmentations. Cette IA nécessitera une infrastructure partagée qui sera le dépositaire de la connaissance commune, une connaissance qui dépasse le texte pour rendre compte de la variété des expériences humaines (texte, photos, vidéo, langage, musique, odeurs…). C’est l’internet ou Wikipedia revisité.
Meta travaille sur des modèles qui dépassent l’IA générative, essayant de prédire les informations plutôt que les mots ou les pixels afin de leur donner plus d’intelligence. Yann Lecun a inventé les modèles JEPA (Joint Embedding Predictive Architecture). D’après Perplexity:
JEPA, qui signifie Joint Embedding Predictive Architecture, est un modèle d'IA qui se concentre sur l'apprentissage en créant un modèle interne du monde extérieur. Il compare les représentations abstraites des images plutôt que de comparer directement les pixels. Cette approche permet au modèle d'effectuer des prédictions dans l'espace de représentation, ce qui signifie qu'il peut ignorer les détails non pertinents et se concentrer sur les caractéristiques essentielles nécessaires pour faire des prédictions précises. JEPA est conçu pour capturer des dépendances multimodales complexes et effectuer des prédictions à court et à long terme en apprenant une hiérarchie de représentations.
Ainsi que l’exprime Yann Lecun, l’IA doit être capable de comprendre le monde, se souvenir, raisonner et planifier. Cette IA dépasse largement les possibilités de l’IA générative. A ce jour cependant, JEPA est un projet de recherche et ne concerne pas encore d’applications commerciales. Il peut cependant déboucher sur des produits plus pertinents que l’IA générative. Celle dernière n’a donc pas d’autres choix que de continuer à s’améliorer pour éviter une disruption potentielle et une tombée dans l’obsolescence. Comme elle plait et gagne de l’argent, tous les grands acteurs vont être motivés pour créer de nouvelles versions de Gemini, ChatGPT, Anthropic et Llama, plus puissantes, consommant encore plus de GPUs…tout cela pour protéger leur business. Chaque année la consommation de GPUs pour fabriquer de tels modèles est multipliée par dix. On comprend pourquoi les BigTech ont décidé de concevoir leurs propres accélérateurs et aussi pourquoi l’IA sera probablement dominée par les acteurs capables d’aligner les GPUs.
Faciliter l’accès
Le verrou aujourd’hui à l’expansion de ce genre de services est la complexité d’accès: pour utiliser une IA générative, il vous faut prendre votre smartphone, le réveiller, rentrer votre code, naviguer entre les apps et ouvrir la bonne, en espérant qu’elle ne vous demande pas un mot de passe ou de cliquer sur un captcha. Enfin vous faites votre requête et attendez quelque secondes avant d’obtenir votre réponse. En fonction du type de demande, il vous faut changer d’application et reprendre une partie du processus. Celui qui facilitera l’accès, donc la distribution du produit, aura une bonne option pour l’emporter. Il y a différents moyens pour ce faire qui probablement vont être utilisés ensemble pour plus d’efficacité dans la distribution du service:
l’IA multimodale: elle combine plusieurs sources de données (texte, image, vidéo, logiciel, voix…) et produit également plusieurs types de réponses (texte, image, voix, vidéo, prise de décision…). Ce n’est plus texte à texte mais image à texte, texte à vidéo, ou tout autre type de combinaison input/output, y compris des actions. Son avantage est qu’elle est “tout en un”, facilitant son utilisation. ChatGPT est multimodal intégrant de plus en plus d’options avec une requête centralisée. C’est ainsi que l’on peut maintenant invoquer des gpts spécialisés directement dans le prompt. C’est plus pratique que de connecter un plug in. A la suite d’OpenAI, la plupart des modèles cherchent à devenir multimodaux. Ces modèles sont plus complexes que les unimodaux et vont nécessiter d’avantage de GPUs: ils constituent un pas vers l’IA générale dans la mesure où ils se rapprochent plus de la perception humaine basée sur plusieurs sens
le système d’exploitation: le LLM peut être intégré directement au système d’exploitation qui est la première interface sollicitée par l’utilisateur d’un smartphone. Il va guider l’utilisateur dans la navigation pour lui faire gagner du temps et lui éviter de parcourir les apps à la recherche de ce qu’il souhaite. Il constitue un assistant amélioré ( Dis Siri, Ok Google) qui fait le travail à la place de l’utilisateur sur des taches de plus en plus nombreuses. Google a déjà baptisé son assistant Pixie.
le hardware: le téléphone n’est pas forcément le meilleur moyen d’accéder à l’IA générative car il est calibré pour la navigation entre et sur les applications. L’IA est soi une application de plus ou dans le cadre d’un agent type Pixie risque de se heurter aux habitudes prises. Il faut donc repenser le hardware pour supprimer les conflits d’utilisation. Certains s’y essaient déjà: Humane AI a peu de chance car le produit est cher et veut remplacer le smartphone; Rabbit Tech a une approche plus astucieuse qui est de créer un hardware peu onéreux sollicité à la voix pour réaliser des actions (réservations de taxis par exemple). Enfin Meta et Brillant Labs chacun de leur côté inventent des lunettes dotées d’une IA générative multimodale capables d’écouter et de voir.
L’intelligence artificielle se rapproche de plus en plus de l’homme au sens propre (matériel) et au sens figuré (capacités intellectuelles, voire émotives).
Vers le jumeau numérique
D’après Perplexity:
Un jumeau numérique est une réplique virtuelle d'un objet, d'un système, d'un processus ou même d'un lieu physique. Il est conçu pour refléter fidèlement son homologue dans le monde réel, en intégrant des données en temps réel et en couvrant l'ensemble de son cycle de vie
Le concept de jumeau numérique a été développé par la NASA dans les années 60, lorsqu’elle a commencé à utiliser des prototypes virtuels pour simuler ses systèmes spatiaux. Pendant longtemps, seul les objets et l’espace physique étaient concernés, l’idée étant de comprendre et planifier le mouvement des premiers dans le second. Les entreprises fabriquant des objets (usines) ou les stockant (entrepôts) étaient au premier chef concernées. Nvidia a popularisé le jumeau numérique avec son offre Omniverse qui consiste pour une entreprise à reproduire virtuellement ses usines pour pouvoir effectuer des simulations (nouvelle production, amélioration des processus, etc.). Le jumeau numérique permet de simuler, prévoir et planifier en fonction.Le PDG de NVIDIA, Jensen Huang parle de métavers industriel au sujet d’Omniverse.
Palantir est en train d’étendre la notion de jumeau numérique à toute l’entreprise et pas seulement à ses usines. Il réalise une cartographie numérique de celle-ci et de son univers concurrentiel en temps réel (logiciel Apollo) puis propose un système d’exploitation pour ses données (logiciel Foundry). Les usines certes sont concernées mais aussi les départements commercial, marketing, ressources humaines, stratégie …La copie numérique de l’entreprise ainsi obtenue lui permet de brancher des applications fonctionnant sur Foundry. La plus prisée aujourd’hui est AIP, une plate-forme d’intelligence artificielle entraînée sur les flux de travail de l’entreprise et qui permet de simuler, prévoir et planifier les décisions à partir du jumeau numérique. Une intelligence générative permet d’utiliser les capacités de la plate-forme facilement.
Meta veut l’élargir au niveau du consommateur final ce qu’entreprend Palantir au niveau de l’entreprise. Son marché potentiel est de 8 millards de personnes. Il veut cartographier les données relatives à la personne, à ses connexions humaines mais aussi à son univers physique pour faciliter la constitution de jumeaux numériques capable de constituer des assistants corvéables à merci en toute circonstance et parfaitement disponibles. L’assistant est dans les lunettes (Meta Ray Ban) et numérise tout ce que la personne voit et entend; il est dans le casque (Quest) où il numérise tout l’environnement (réalité mixte), il est dans les réseaux où il enregistre numériquement tout ce que la personne écrit et poste. Entraîné sur le segment de personnes qui lui ressemble le plus, il peut alors prendre le relai de la personne, l’éclairer sur son environnement, exécuter des décisions pour elle, lui présenter des options, la distraire, etc. Pour Mark Zuckerberg, c’est là ou l’IA et le métavers vont se rencontrer. Sa stratégie n’était pas lisible il y a deux ans car ne reposant que sur une jambe. Elle se précise aujourd’hui. Et il a les données…
Les Big Tech ayant des approches « produits finis » vont devoir suivre, étant pour l’instant en défaut soit sur l’IA, soit sur la VR:
-Apple ne peut se contenter d’une IA locale (dans l’iPhone, les AirPods ou le Vision Pro). Il va lui falloir aussi développer des capacités d’IA plus performantes dans un cloud.
-Microsoft ne peut se contenter d’une approche lego du cloud avec pour objectif principal de vendre la suite Office 365 avec IA intégrée comme facteur unifiant. Il doit repenser sa vision de l’entreprise en lui adjoignant un jumeau numérique capable de l’aider à décider en temps réel en fonction de la concurrence. Il faut passer du cloud brut au cloud raffiné.
-Google a abandonné la réalité mixte. Il va devoir revenir sur cette décision et investir dans le hardware du futur. Android était peut être suffisant à l’époque du smartphone pour contrer l’iPhone, son option open source tranchant avec l’approche d’Apple. Aujourd’hui Google se trouve en porte à faux par rapport à Apple qui a investi sur le Vision Pro et par rapport à Meta qui développe l’open source sur son IA et sur ses casques Quest. Gemini est propriétaire…l’IA unique n’est elle pas utopique ?
Amazon reste avant tout un commerçant, un intermédiaire et va fournir aux développeurs les outils pour les aider à créer leur contribution au jumeau numérique. Fournir les pics et les pioches est un marché important. Plus les autres Big Tech avanceront dans la conception du produit fini, plus Amazon devra affûter des outils pour armer les autres, les start up et challengers. Au final, cette belle bataille va demander beaucoup de puissance de calcul et attirer la compétition chez les concepteurs mais aussi les fabricants de puces. Sam Altman en a pris note et cherche les investisseurs…
Bonne fin de semaine,
Hervé