part 2: l'infrastructure à constituer
Les cimetières sont remplis de sociétés qui n’ont pas compris les règles du jeu.
Bref historique de l’adoption du cloud V1
La croissance du cloud s’est accélérée à partir de 2012. Jusqu’alors, AWS était utilisé par Amazon essentiellement pour ses besoins propres, l’hébergement de sa plate-forme d’e-commerce. Les premiers services étaient le stockage et le calcul à distance. Azure et Google Cloud étaient embryonnaires. L’ouverture de l’iPhone aux applications externes et la nécessité de délocaliser stockage et calcul, faute de place et de puissance dans un si petit appareil, ont constitué une véritable motivation pour développer cette industrie. AWS a dévoilé ses services au public à la conférence “Re-invent” de 2012, une conférence destinée à ses partenaires, annonçant un client d’envergure: Netflix. Dans un contexte de forte croissance, l’industrie s’est construite selon la théorie de conservation des profits attractifs vue dans notre précédente lettre:
Dans une chaîne de valeurs donnée, il existe une juxtaposition nécessaire de processus modulaires et intégrés, de banalisation et de dé-banalisation, afin d’optimiser les performances de ce qui n’est pas encore assez bon. Quand la modularité et la banalisation font disparaître les profits attractifs à un stade, l’opportunité de gagner des profits attractifs avec des produits propriétaires émerge généralement à un stade adjacent. Les profits se font là où il y a intégration, intégration nécessaire pur répondre à une demande toujours plus exigeante. L’inter-opérabilité contraint l’expérience client dans la mesure où elle impose un standard aux différents modules, qui ne concourent plus ensemble à satisfaire les exigences dudit client.
L’iPhone était intégré, le cloud modulaire…mais au sein même du cloud, il y avait place pour une nouvelle intégration. En l’occurence, la partie la plus importante, celle dont dépendait la performance du cloud (le nouvel ordinateur) était le CPU. Même s’il avait perdu le marché du smartphone, Intel restait le maître sur la chaine cloud, l’intégration de la fonderie et de la conception lui permettant d’apporter sur le marché les puces les plus performantes. X86 (Intel) restait l’architecture standard pour les développeurs et le reste du cloud se partageait en modules, que ce soit le matériel (serveurs), le système d’exploitation (Linux) ou les applications. AWS était un partenaire modulaire par excellence, sa culture étant axée autour du développement de modules les plus spécialisés possibles. Le lancement de Kubernetes par Google en 2014 rendait opérationnel le transfert d’un cloud à l’autre d’applications et de leur environnement de travail (conteneurs), contribuant à maintenir la modularité du cloud autour du CPU. Microsoft lui-même cherchait à faire oublier sa logique intégrée autour de Windows et acceptait volontiers de développer une approche modulaire fondée sur Linux.
Du CPU au GPU
La disruption modulaire classique: vos marges sont mon opportunité
Le cloud CPU (V1) est déjà devenu modulaire dans son ensemble, avant même l’arrivée d’un nouveau marché plus structurant que celui entrainé par l’iPhone. Intel s’est fait désintégrer par ses propres faiblesses. Une intégration réussie repose sur un équilibre entre les parties (en l’occurence fonderie et conception) pour un meilleur produit, non pas une domination de l’une sur l’autre. La fonderie chez Intel commandait et n’écoutait pas son client (conception). Quand la demande était toujours la même (toujours plus de puissance), cela ne posait pas de problème. Avec l’arrivée des smartphones, il a fallu faire des puces plus économes, la fonderie ne s’est pas adaptée à cette nouvelle demande et a perdu le marché des smartphones au profit d’ARM. Intel a même refusé un deal avec Apple sur l’iPhone: trop d’investissement pour un potentiel trop limité ! De même, la fonderie n’a pas mesuré l’importance de la lithographie EUV (Extreme Ultra Violet) justement parce qu’elle avait perdu le marché du smartphone et la nécessité de faire toujours plus petit. Au lieu de continuer à placer ses meilleurs efforts sur la réduction de la taille des puces, la fonderie s’est intéressée à l’assemblage des différentes pièces pour faire croître la puissance des systèmes sur puce. TSMC en utilisant les machines EUV d’ASML est devenu meilleur que la fonderie d’Intel. La conception d’Intel a dû s’adapter aux exigences dépassées de sa fonderie quand AMD, avec une approche purement modulaire, constituait avec TSMC un tandem capable de prendre des parts de marché sur le dominant avec des coûts défiant toute concurrence. Au 4 ème trimestre 2023, AMD avait 25 % de parts du marché des serveurs.
Une deuxième attaque est venue d’AWS qui, ne voulant pas laisser tant de marges à Intel a conçu dès 2017 ses propres puces de serveur (Graviton) en s’appuyant sur la technologie bas de gamme ARM. C’était un challenge car il a fallu convaincre les développeurs d’adopter une architecture à laquelle ils ne sont pas habitués. L’avantage d’AWS est d’avoir lui-même un bon nombre de développeurs qu’il peut forcer à utiliser ses puces pour cloner des applications à succès qui seront beaucoup moins chères si le code est exécuté sur CPU maison. Graviton est maintenant à sa quatrième génération. L’approche d’AWS est maintenant imitée par les autres Big Tech qui prévoient elles-aussi de concevoir leurs propres CPUs. Le dernier en date est Google qui vient d’annoncer son CPU maison nommé Axciom.
Le résultat de ces attaques est qu’Intel a dû adopter lui aussi une approche modulaire séparant fonderie et conception. Le cloud version 1 est devenu complètement désintégré.
L’émergence des GPUs Nvidia
L’informatique avec le temps est devenue d’avantage prédictive. Aussi le calcul en parallèle permettant d’affiner les probabilités (avec des données de masse) est devenu concurrent puis dominant par rapport au calcul en série (une opération après l’autre, étape après étape). Les CPU qui font ce deuxième type de calcul ajoutaient au départ des coeurs. Mais rajouter des coeurs à un CPU est complexe. La dernière version Raptor Lake d’Intel a 24 coeurs. Les puces GPUs sont elles capables de calculs simples mais sur de multiples coeurs. La version H100 de Nvidia qui sert à entrainer les derniers modèles d’IA générative est dotée de près de 17 000 coeurs, le dernière Blackwell en a plus de 20 000. Dans un premier temps (c’est à dire jusqu’en 2022), les CPUs étaient utilisés pour l’IA comme une tâche en plus par rapport à leur utilisation habituelle. La sollicitation de modèles probabilistes était essentiellement le fait des grandes sociétés technologiques qui s’appuyaient également sur des données déterministes. L’IA servait ses réponses standardisées en cohortes de clients, utilisateurs ou mots clés.... La consommation de calcul parallèle était ainsi mutualisée. De plus, les techniques d’apprentissage par renforcement considèrent le comportement d’un agent par rapport à son environnement. Les aller et retour séquentiels pour mesurer le comportement de l’agent impliquent l’utilisation de CPUs. L’IA générative a bousculé subitement la demande. l’IA est devenue un produit de consommation individualisé: à chaque demande correspond une réponse particulière servie par un ou plusieurs GPUs localisés dans un cloud. De plus, l’IA générative est un modèle d’imitation pure sans environnement. Son entrainement nécessite des données en très grand nombre et une capacité de les traiter que seuls les GPUs modernes peuvent gérer. La demande de calcul parallèle devient immense séparant les acteurs en deux: ceux qui ont des GPUs qui peuvent surfer sur la vague et las autres qui restent à l’écart, voire sont condamnés à l’obsolescence. Le GPU devient l’élément important dans la chaine de valeur cloud, celui qui attire les profits attractifs et qui sera propice à une approche intégrée permettant à l’écosystème cloud de progresser plus vite. Le CPU devient simplement l’organisateur du travail des GPUs. Sa vocation change et son fonctionnement avec le GPU favorise une approche propriétaire intégrée.
Nvidia devient l’acteur incontournable dans un contexte de progrès impressionnant des capacités de calcul parallèle nécessité par l’entrainement des modèles destinés au consommateur final (x10 tous les ans et demi au lieu de x2 pour la loi de Moore). Nvidia intègre depuis 2006 la conception matérielle du GPU et le logiciel qui permet aux développeurs de transmettre leur code en langage GPU. Les développeurs ont eu largement le temps de s’habituer à ce logiciel qui permet de programmer aussi bien des jeux que du minage de cryptomonnaies, de la conduite autonome ou de l’IA. Nvidia intègre également la connectique entre les puces permettant de les mettre mettre en batterie pour exécuter un programme comme s’il s’agissait d’une seule puce. Les GPUs Nvidia sont donc à l’unité et en batteries plus puissante que les autres et faciles à programmer d’une génération à l’autre. Nvidia occupe désormais la même position qu’avait Intel sur les centres de données. Plus de 90 % de part de marché des GPUs pour Nvidia contre plus de 90 % des parts de marché des CPUs pour Intel: la différence notable est que la courbe de progression demandée des GPUs est beaucoup plus pentue que celle des CPUs, comme le montre la représentation suivante à l’échelle logarithmique:
Or la qualité des modèles, qui ne sont pas suffisamment performants aux yeux du consommateur (vitesse, précision, étendue des possibilités, mémoire ) va dépendre de la bonne gestion d’un nombre de paramètres de plus en plus important, donc de la capacité à faire du calcul parallèle de plus en plus grand. Par exemple Grok v1 ( le modèle d’Elon Musk) a été entraîné sur 20 000 H100; Grok v2 (légèrement supérieur à GPT-4) sera entraîné sur 65 000 H100 ! L’intégration historique de Nvidia joue à son avantage car les développeurs doivent passer d’une génération de GPUs à l’autre sans avoir le temps de se reposer. Le GPU est l’élément le plus important aujourd’hui de cette chaine de traitement IA, ce qui explique la valorisation de Nvidia à $2 trillions.
Le cloud IA en formation
Nvidia n’est pas un produit destiné au consommateur, il est donc d’avantage menacé qu’un produit de consommation qui fait jouer la corde émotionnelle. Pas d’effet « whaou » comme avec un produit Apple ou une Tesla. L’intégration est sans cesse menacée, Nvidia s’y prépare et doit déjà lutter contre plusieurs menaces plausibles:
-les contraintes énergétiques rendant trop onéreux l’entraînement des modèles les plus performants. L’IA toutes choses égales par ailleurs pourrait consommer 20% à 25% de l’énergie des Etats-Unis en 2030 contre 4% aujourd’hui !
-la difficulté pour TSMC de suivre le rythme de réduction de la taille des puces nécessaire pour satisfaire les demandes d’entraînement.
-l’obsolescence possible de CUDA si les puces deviennent hyper-spécialisées sur l’IA générative.
-la volonté des opérateurs cloud de créer leurs propres puces pour faire des économies et différencier leur infrastructure cloud dans leur ensemble. La possibilité pour eux de forcer leurs développeurs à choisir un autre langage que CUDA.
-la rivalité de solutions modulaires moins onéreuses comme celles proposées par Broadcom ou Intel.
Centres de données=nouveau point d’intégration
Traditionnellement, le progrès en matière de semi-conducteurs est mesuré par la taille du noeud (le plus petit élément constitutif du semi-conducteur). Plus le noeud est fin, plus la densité de matière est importante dans la puce et l’espace perdu réduit: il en résulte plus de puissance et économie d’énergie. C’est ainsi qu’on est passé de 10 nm à 7 nm puis 5 nm, 4 nm et maintenant 3 nm. Concernant l’IA générative, on pourrait certes se contenter de mettre d’avantage de GPUs existantes en batteries pour entrainer des modèles à paramètres toujours plus nombreux. L’espace ne semble en effet pas une contrainte dans les centres de données. Le problème serait un coût de plus en plus astronomique pour des temps d’entrainement de plus en plus longs et une consommation d’énergie galopante. Il faut donc continuer à appliquer la loi de Moore, ce qui pose un réel challenge:
TSMC a de plus en plus de difficulté à réduire la taille des noeuds avec sa technologie actuelle. Intel cherche à innover avec une disposition différente des couches composant le semi-conducteur. Le statu quo n’est plus une option entrainant des risques pour les concepteurs de GPUs.
Or il faut pouvoir multiplier par dix les capacités de calcul tous les ans et demi, pas seulement par deux !
La solution ne peut se trouver qu’au niveau des centres de données qui doivent devenir un GPU géant soumis à la loi de Moore. La loi de Moore existe toujours mais s’applique d’abord aux centres de données avant de concerner les puces: le levier est plus important. Centres de données et puces composent le même univers fractal:
Un univers fractal est un modèle cosmologique qui suggère que la structure et la répartition de la matière dans l'univers possèdent des propriétés fractales, c'est-à-dire qu'elles présentent une récurrence et une autosimilarité à différentes échelles[5]. Dans un tel univers, les motifs et les structures observés à une certaine échelle se répètent de manière similaire à des échelles plus grandes ou plus petites, ce qui implique que l'infiniment grand peut ressembler à l'infiniment petit, et vice versa.
Cet article de Fabricated Knowledge explique bien pourquoi la loi de Moore s’applique désormais aux centres de données et décrit les avancées de Nvidia pour en prendre le contrôle. En résumé la problématique est simple: réduire l’espace inutile entre les unités de stockage et de calcul pour gagner en rapidité et économie d’énergie: c’est faisable au niveau de la puce en réduisant la taille des noeuds pour les rapprocher. C’est valable également et surtout maintenant au niveau des racks informatiques et centres de donnés qui doivent réduire toujours plus l’espace entre les puces, mémoires, systèmes sur puces, systèmes de refroidissement, etc. Il faut donc concevoir en ce sens les connexions entre les différentes unités à l’intérieur des racks informatiques et le système de refroidissement adéquat. Plus on insère de puces dans le rack plus les connexions et refroidissement deviennent critiques.
La localisation du centre de données devient critique pour économiser de l’énergie: sa construction près d’une centrale nucléaire ou d’un site de production d’énergie solaire paraît de plus en plus opportune car il est moins coûteux de transporter des bits que de l’électricité. Cela explique le récent projet d’Amazon. D’après Révolution énergétique, le 12 mars 2024:
Amazon web services (AWS), la division d’Amazon dédiée aux services informatiques en ligne, vient d’acheter un vaste campus de 485 hectares créé par le fournisseur d’énergie américain Talen Energy. Appelé Cumulus Data Assets, ce campus a la particularité d’être situé à deux pas de Susquehanna Steam Electric Station, une centrale nucléaire de 2,5 GW mise en service en 1983. Cette proximité n’est pas un hasard : Talen Energy a conçu ce campus avec l’objectif de rassembler les activités ayant d’importants besoins énergétiques au plus près de sources de production d’électricité décarbonée.
Avec le cloud IA, le point d’intégration est en train de se déplacer vers le centre de données qui comprend les CPUs, les GPUs, la mémoire, les serveurs, la connectique, le système de refroidissement et l’alimentation électrique.
Strategies cloud IA
Les stratégies des BigTech se positionnent en fonction:
Nvidia sait qu’il est menacé dans son intégration hardware/ CUDA. Le grand avantage de cette intégration est la facilité de programmer les GPUs pour des usages variés (cryptos, graphiques, voitures autonomes, IA). Si l’usage dominant devient l’IA, l’avantage CUDA s’estompe et il y a moins de raison de laisser des marges importantes à Nvidia pour une puce multi-usage. Nvidia cherche donc à déplacer l’intégration vers le rack informatique clé en main. Il crée donc sa propre solution cloud GPU (DGX cloud) qu’il impose aux opérateurs cloud, en en faisant une condition pour les fournir prioritairement en GPUs. La pénurie actuelle de GPUs lui permet d’installer son cheval de Troie chez Google, Amazon et Microsoft. Nvidia veut être le seul à pouvoir suivre la loi de Moore appliquée à l’entraînement des modèles haut de gamme.
Il va trouver sur sa route Google qui travaille sur ses propres puces d’intelligence artificielle (TPU), depuis 2015. Il en est à la cinquième génération. Ces puces sont dimensionnées spécialement pour les calculs parallèles massifs, grâce à un accès mémoire ultra-rapide. Google intègre tout le centre de données y compris dorénavant le CPU avec sa nouvelle puce Axciom. Il a une solution globale performante à bas coût . Il compte utiliser cette infrastructure unique pour proposer des modèles dotés d’une véritable mémoire. Gemini 1,5 a ainsi une fenêtre contextuelle qui peut comprendre jusqu’à 10 millions de tokens, plus que la mémoire humaine ! C’est une sérieuse avancée par rapport aux astuces déployées aujourd’hui pour augmenter la mémoire des modèles en inférence (RAG, entraînement local ou modèles d’expert par exemple). Google aurait tout intérêt à ne pas prolonger trop loin son intégration (jusqu’au modèle par exemple) pour éviter une attaque frontale de concurrents adoptant une approche modulaire. Llama (open source) aura beau jeu de critiquer un modèle propriétaire tel que Gemini qui enferme les données de ses utilisateurs sur une infrastructure Google. Cette critique aurait une certaine portée dans le monde de l’entreprise de plus en plus porté vers l’open source.
C’est pourquoi Microsoft, qui depuis Windows a une tendance à l’intégration, ne doit plus donner l’image d’une société intégrée à ses clients entreprise. Satya Nadella l’a bien compris dès son arrivée, centrant sa stratégie sur le cloud au détriment de Windows, achetant Github et promouvant Linux pour se donner une bonne image auprès des développeurs. Néanmoins Microsoft continue le jeu profitable de l’intégration mais très en aval, au niveau des applications client. Depuis le Covid, et devant le succès de Zoom et Slack, il a fait de Teams le point d’intégration. C’est maintenant le tour de Copilot. A chaque fois, le levier reste la suite Office qui reste très propriétaire. Pour maintenir une intégration proche du point de distribution, Microsoft est prêt à modulariser le reste de la chaine. Il ne faut pas que les entreprises qui aspirent de plus en plus à l’open source se sentent en prison dans l’univers Microsoft. Il ne peut d’autant moins se le permettre qu’il a investi des montants considérables dans l’IA ces deux dernières années. Cela explique pourquoi, à l’autre bout de la chaine, en amont, Microsoft se soit contenté d’assembler des matériaux fournis par des tiers, en particulier les GPUs de Nvidia. La société est le plus gros acheteur de H100 avec Meta (source Quartz), ce qui fait de lui un fournisseur d’infrastructure très performant, mais non intégré, laissant cet avantage à Nvidia. Voyant le danger, Microsoft essaie maintenant de rattraper son retard par rapport notamment à Google, en concevant ses propres puces d’intelligence artificielle. C’est ainsi qu’il a annoncé ses nouvelles générations Maia (GPU) et Cobalt (CPU) en novembre 2023, sept ans après Google. L’intégration au sein du centre de données est clairement visée. D’après The Verge:
La nouvelle puce Azure Maia AI et l'unité centrale Azure Cobalt sont toutes deux construites en interne par Microsoft, en combinaison avec une révision en profondeur de l'ensemble de sa pile de serveurs cloud pour optimiser les performances, la puissance et les coûts. "Nous repensons l'infrastructure cloud pour l'ère de l'IA et optimisons littéralement chaque couche de cette infrastructure,” dit Borkar (responsable de l’infrastructure Azure)
La culture d’Amazon est de renverser l’intégration, la phrase célèbre de Jeff Bezos étant: “vos marges sont mon opportunité”. Chaque recoin d’intégration est poursuivi pour en proposer une ou plusieurs alternative modulaire bon marché. Amazon est à la recherche de l’unité de service la plus petite possible, la plus spécialisée possible dans tous les domaines. Chaque unité devient une pièce de lego qui assemblée avec d’autres permet de construire un business. Amazon a inventé le cloud dans cet esprit, commençant par le stockage (S3), la machine virtuelle (EC2), les bases de données puis des centaines de briques (240 exactement contre 100 pour Google Cloud par exemple) destinées aux développeurs. De là sont nées les applications Netflix, Disney plus, Alexa, Amazon Go, etc. AWS a été le premier à désintégrer Intel en proposant dès 2018 son CPU Graviton, d’architecture ARM, fabriqué par TSMC. Il se propose maintenant de créer le cloud IA, à la manière dont il a créé le cloud CPU: infrastructure, modèles de fondation et applications, sous formes de briques élémentaires spécialisées à destination des développeurs et créateurs. Sa vision de l’infrastructure est modulaire. Même s’il propose des armoires informatiques Nvidia, il ne veut pas s’enfermer sur un seul fournisseur. Sa logique est celle du magasin universel. Il ne cherche pas forcément à avoir la meilleure solution, comme Google, mais plusieurs solutions alternatives comme un bon distributeur. C’est pourquoi en plus du CPU Graviton, il conçoit ses propres puces d’IA: Trainium (2020) pour l’entrainement et Inferentia (2018) pour l’inférence (une manière de désintégrer les puces monolithiques de Nvidia). Il propose également ses propres racks informatiques qui peuvent être installés chez les clients. Plus généralement, AWS va proposer sa boite à outil pour fabriquer des modèles de fondation (SageMaker) et sa boite à outil pour fabriquer des applications IA (Amazon Bedrock). La force de ces multiples outils est leur inter-opérabilité, leur capacité de fonctionner aussi bien avec des outils extérieurs qu’avec des outils AWS. Même si Microsoft historiquement domine le marché de l’entreprise, Amazon a réussi à se faire une place notable car il répond parfaitement à la demande des entreprises qui ne veulent plus être enfermées. Evidemment, toute cette architecture ne peut se développer que s’il y a des produits finaux. Aussi Amazon cherche à entrainer le marché avec ses propres produits d’abord, comme il l’ fait pour prendre le leadership sur le cloud. Andy Jassy, CEO d’Amazon:
La couche supérieure de cette pile est la couche applicative. Nous développons un nombre important d'applications GenAI dans tous les secteurs d'activité d'Amazon. Ces applications vont de Rufus (notre nouvel assistant d'achat doté d'IA) à une Alexa encore plus intelligente et performante, en passant par des capacités publicitaires (qui simplifient, grâce à des invites en langage naturel, la génération, la personnalisation et l'édition d'images, de textes publicitaires et de vidéos de haute qualité), des applications de productivité pour le service client et le service vendeur, et des douzaines d'autres. Nous développons également plusieurs applications sur AWS, notamment le cas d'utilisation le plus convaincant de la GenAI, un compagnon de codage. Nous avons récemment lancé Amazon Q, un expert sur AWS qui écrit, débogue, teste et met en œuvre du code, tout en effectuant des transformations (comme le passage d'une ancienne version de Java à une nouvelle) et en interrogeant les différents référentiels de données des clients (par exemple, Intranets, wikis, Salesforce, Amazon S3, ServiceNow, Slack, Atlassian, etc. Q est l'assistant de travail le plus performant disponible aujourd'hui et il évolue rapidement.
Bien que nous construisions nous-mêmes un nombre important d'applications GenAI, la grande majorité d'entre elles seront finalement construites par d'autres entreprises.
L’importance des données
L’effet Chinchilla vient à la rescousse des Big Tech en particulier Google, Facebook et Amazon. Quel est-il ?
Le "point Chinchilla" est un concept qui a émergé avec les recherches de DeepMind, en particulier dans leur étude sur le modèle de langage Chinchilla publié en 2022. Ce point représente l'idée que les performances des modèles de traitement du langage naturel, comme ceux utilisés pour générer du texte, peuvent être grandement améliorées non seulement en augmentant la complexité des modèles (en termes de nombre de paramètres) mais aussi en optimisant la quantité et la qualité des données d'entraînement.
L'étude de DeepMind a montré que, pour un nombre de paramètres donné, doubler la taille de l'ensemble de données d'entraînement pouvait être plus efficace pour améliorer les performances du modèle que de simplement augmenter la taille du modèle lui-même. Ainsi, le "point Chinchilla" suggère un équilibre entre la taille du modèle et la quantité de données d'entraînement, avec un accent particulier sur l'importance de disposer de grandes quantités de données de haute qualité pour entraîner des modèles de langage efficaces.
Or Llama 3 qui a été entraîné avec 15 trillions de token a permis d’expérimenter le concept: avec seulement 8 milliards de paramètres, il rivalise avec GPT-4 tout en ayant un coût d’inference 10 fois moindre. Cela est susceptible de changer la donne pour les BigTechs disposant de données massives. Elles seront capables d’offrir un service de qualité à bas coût sans rivaux possibles. Leur infrastructure associée à un effet Chinchilla vont les placer devant les fabricants de puces qui ne pourront se battre que sur le seul hardware.
Désintégration du cloud AI
À l’autre bout du sceptre, il y a les sceptiques qui pensent que d’une manière ou d’une autre, de Nvidia à Google en passant par Microsoft et Amazon, le cloud enferme. Les entreprises veulent être libres, ne pas se voir dicter ce qu’ils peuvent faire ou non par une Big Tech, et garder des marges pour elles. L’IA serait une occasion pour faire pencher la balancier vers l’informatique locale au détriment du cloud. Pour fabriquer des produits de consommation, les BigTech peuvent bien aller chercher les modèles les plus performants amortis sur des milliards d’utilisateurs et intégrer leur processus de fabrication dans des centres de données géants. Mais qu’en est-il des entreprises dont les clients se comptent en milliers ou au mieux millions ? Ont-elles vraiment besoin de la Blackwell 200 de Nvidia ?
Si le cloud classique présentait un net avantage par rapport à l’informatique sur site du fait notamment d’une utilisation plus soutenue des serveurs (mutualisation), il en va différemment du cloud IA: il y a là la pénurie de ressources, la mutualisation reste théorique. On peut rajouter deux autres inconvénients: la lenteur d’exécution de requêtes lointaines et le flou sur l’utilisation des données à des fins d’entraînement externe. Certaines entreprises jouent la carte de l’informatique sur site pour l’IA avec un triple objectif:
-faire baisser considérablement le coût du calcul parallèle grâce à l’utilisation de l’open source (au plus près de la puce)
-gagner en vitesse d’exécution, par élimination de la distance entre le serveur et l’utilisateur,
-sécuriser les données de l’entreprise et éviter qu’elles soient utilisées pour entraîner des modèles externes ou à d’autres fins.
C’est le cas d’Intel qui a construit au fil des années une solide infrastructure périphérique, programmables avec des outils open source (OpenVino), pour faire de l’inférence à bas coût. Intel est en position historique de force sur les serveurs avec ses puces Xeon. Les développeurs sont habitués à les programmer. Il a maintenant un argument de plus pour inciter les entreprises à construire avec l’existant, en local plutôt que de tenter l’aventure hasardeuse du cloud IA.
Revenons aux fractales. Le combat qui se déroule au niveau du cloud IA se joue également au niveau du produit final: le smartphone. Google vient d’annoncer la fusion de ses divisions hardware et Android. Plus significatif est que le responsable de la nouvelle entité sera Rick Osterloh, le patron de la division hardware (incluant le Pixel Phone). Jusqu’à présent l’objectif d’Android était de défendre le positionnement du moteur de recherche et des principales applications Google sur le smartphone. Avec l’IA, Google a une occasion unique pour s’attaquer directement à l’iPhone et fabriquer un produit supérieur intégré à Gemini Ultra et sa mémoire phénoménale. Cette fusion est un signe fort de la détermination de Google à profiter de cette opportunité unique. Apple n’a pas de cloud et va devoir riposter avec un modèle local intégré à l’iPhone qui gardera la mémoire de toute la navigation. Le local sera-toujours à la hauteur du centre de données ? Quel sera l’effet d’un LLM sur la batterie de l’iPhone ? Le smartphone est d’abord un produit de consommation avec des exigences fortes: avec un LLM puissant, la batterie ne tiendra que quelques minutes au lieu de quelques heures…Apple en défense devra s’associer avec un modèle décentralisé (ChatGPT lui même associé à Azure?). Le smartphone reste finalement au cœur de la bataille…
Bonne semaine,
Hervé