Echapper à la course de la reine rouge
Les cimetières sont remplis de sociétés qui n’ont pas compris les règles du jeu.
Réfléchissant sur mon dernier article IA générative, la course de la reine rouge, je me suis demandé s’il n’y avait pas un moyen de sortir de cette course kafkaïenne à l’IA dans laquelle sont engagées les entreprises, une course qui permet aux seules Big Tech (incluant Nvidia) de tirer leur épingle du jeu. Il n’est guère étonnant qu’elles soient les seules à monter en bourse cette année. En effet elles détiennent l’infrastructure (puces, serveurs, parcs de données, plateformes d’intelligence artificielle) qu’elles peuvent louer à bas prix à tous ceux qui sont obligés de multiplier les coûts pour rester dans la course, c’est à dire maintenir leur position concurrentielle.
Pour m’aider dans ma réflexion, Je me suis appuyé sur un interview récent de Nathan Friedman, ancien responsable de GitHub et de Daniel Gross, ancien partenaire chez Y Combinator.
L’art de présenter l’innovation
Microsoft, un précurseur dans le domaine de l’IA générative, au travers notamment de son investissement dans Open AI, a habilement donné un cadre à cette innovation, en développant la notion de copilote. L’idée est la suivante: l’IA générative étant marquée par un taux d’hallucinations non négligeable ne peut être laissée à elle même pour résoudre des tâches. Elle a besoin d’être contrôlée par quelqu’un capable de déceler ses hallucinations et de la diriger. D’où la notion de pilote (l’homme) et copilote (l’IA générative), le dernier mâchant le travail du premier. C’est ainsi que Microsoft a lancé Github Copilot en avril 2021 (à une époque où l’on ne parlait pas encore d’IA générative) en association avec Open AI. Nathan Friedman, le responsable du projet a l’époque raconte comment l’idée du copilote s’est imposée:
C'est amusant parce que la plupart des idées que nous avions auparavant sur l'IA reposaient sur l'idée de dialogue. L'IA est cet agent de l'autre côté de la table, vous pensez à la tâche que vous voulez accomplir, vous la formulez sous forme de question, vous la posez et vous obtenez une réponse, vous êtes en dialogue avec elle. L'idée du copilote est à l'opposé. Un petit robot est assis sur votre épaule, vous êtes du même côté de la table, vous regardez la même chose, et quand il le peut, il essaie de vous aider automatiquement. Il s'est avéré que c'était la bonne interface utilisateur. Même après avoir compris cela, il nous a fallu plusieurs mois pour trouver comment rendre cela utile pour les gens. L'interface utilisateur actuelle semble très évidente, il y a ce texte gris qui apparaît, parfois c'est une ligne, parfois c'est un bloc, mais il nous a fallu des mois d'ajustements et de bricolages pour y parvenir.
Après avoir réalisé en juin que nous devions faire quelque chose, je pense que nous étions à la fin de l'été, peut-être au début du mois de septembre, lorsque nous avons conclu que les chatbots n'étaient pas la solution. Ce n'est qu'en février de l'année suivante que nous avons eu le déclic et que nous avons réalisé qu'il s'agissait d'un produit et que c'était exactement comme cela qu'il devait fonctionner.
L’idée du copilote est subtile et intéressante à brandir pour un dominant comme Microsoft car elle permet d’enterrer la disruption, c’est à dire le remplacement par l’IA du pilote, purement et simplement. Car si le pilote est remplacé, l’entreprise dans son ensemble, c’est à dire le client de Microsoft, est menacé. L’intérêt de Microsoft est que ses clients perdurent en incorporant toujours plus de ses produits; son intérêt est qu’ils se lancent dans la course de la reine rouge. Certes la productivité des entreprises est améliorée mais au bénéfice des clients finaux et de Microsoft (toutes les entreprises adoptant ses solutions). Il n’est guère étonnant que Microsoft ait étendu la notion de copilote à l’ensemble de ses produits (Bing, Microsoft 365, Azure, cyber-sécurité…).
Microsoft a un atout pour cadrer la conversation autour de l’IA générative: GPT4 qui dote ses produits est à la fois le précurseur et le modèle le plus performant, celui qui hallucine le moins en moyenne. Si le système le plus avancé estime qu’il ne ne peut dépasser le stade de copilote, les autres doivent suivre ou souffrir d’un manque de crédibilité.
Ce ton donne par Microsoft est relayé par son grand concurrent Google, l’inventeur du modèle transformateur et qui a la même stratégie d’instiller de l’IA générative dans ses différents produits, du moteur de recherche à Workspace et à Google Cloud. L’idée est de renforcer l’existant, pas de renverser les tables. Google a de sérieux atouts en terme de puces (ses propres TPUs), de modèles et de données. Les deux géants vite rejoints par Amazon, Meta et Apple ont lancé la course de la reine rouge, donnant les moyens à leurs clients d’embaucher des copilotes.
GPUs: l’embouteillage
La peur de ne pas être au rythme de la course est un puissant stimulant pour investir dans l’IA générative. Or les capacités en GPUs sont insuffisantes par rapport à la demande, du fait de la voracité des modèles dernière génération en mémoire, notamment pour l’inférence. Mon dernier article:
Pour faire tourner un modèle en inférence, il faut charger l’ensemble des paramètres dans la mémoire des GPU utilisés et faire des allers retour entre mémoire et calcul. Or il y a disproportion entre la demande de mémoire et celle de calcul qui oblige à une surcapacité en GPU pour faire tourner le modèle.
De fait, il n’y a pas assez de puces à un coût raisonnable pour satisfaire tout le monde. La capacité réelle se partage entre deux acteurs: Nvidia pour les GPUs et Google pour les TPUs, les autres puces ne sont pas compétitives. Confrontés à ce problème, les opérateurs cloud doivent rationner. Les premiers à avoir réservé de la capacité, comme Midjourney, s’en tirent, les autres doivent surpayer et sont de facto éliminés, s’ils n’ont pas de gros moyens. Si bien qu’une start up qui voudrait entraîner un nouveau modèle différent de ChatGPT ou Claude serait confrontée à des coûts astronomiques se chiffrant en centaines de millions de dollars. Nathan Friedman de nouveau:
Voici donc ce qui se passe : à chaque fois qu'une palette de H100 (GPU dernière génération de Nvidia) arrive sur le quai de chargement d'un cloud, avant qu'elle ne sorte du camion, elle est réservée par une riche entreprise pour trois ans, 24 heures sur 24 et 7 jours sur 7. Parce que la demande est telle qu'ils l’utiliseront, et donc si vous êtes une startup qui n'a que quelques dizaines de millions de dollars, et que vous voulez juste accéder à ce cluster pour un mois, ce produit n'existe pas. Personne ne propose de réserver du temps sur le télescope spatial Hubble ou autre, "nous avons juste besoin de quelques heures sur le télescope spatial Hubble".
La start up n’a d’autre solution que d’utiliser une voie d’autoroute déjà entraînée par Open AI, Anthropic ou Google, une IA calibrée pour le copilotage, de se brancher dessus pour l’inférence et ainsi n’avoir aucun avantage, ni sur l’entraînement, ni sur l’inférence par rapport aux géants de la Tech.
Renverser la logique
La logique du copilote est celle de la continuité. L’innovation véritable consiste à remplacer le pilote. C’est là où l’IA générative peut donner toute sa mesure, créer de nouvelles sociétés qui deviendront à leur tour des dominants déplaçant l’échiquier actuel.
Prenons pour l’illustrer l’exemple de la conduite autonome. Les constructeurs automobiles dans leur grande majorité veulent que rien ne change et adoptent des systèmes de conduite autonomes qui ne remplacent pas le chauffeur, se contentant de constituer une option de plus pour le confort de ce dernier. Or la vraie révolution consiste à se passer de chauffeur, l’industrie du transport pouvant alors être transformée par la baisse des coûts. Dans mon article Voitures sans chauffeur, la fin du tunnel ?, j’avais essayé de chiffrer le coût moyen d’un chauffeur pour montrer le potentiel der la voiture sans chauffeur:
le chauffeur représente le coût le plus élevé d’une automobile et un coût marginal de surcroît. Une voiture parcourt en moyenne 20 000 km par an. Supposons qu’elle le fasse à 80 km/ heure. Cela fait 250 heures sur la route. Le salaire moyen étant de 28 euros l’heure, le coût moyen revient à 7 000 euros l’année…Et sur 10 ans, bien plus cher que le coût de la voiture elle même…
Il ya deux paramètres principaux qui permettent à une innovation de constituer une rupture:
un prix très inférieur à l’état de l’industrie, pas forcément au départ, mais dès qu’il y a du volume, en raison d’un coût marginal peu élevé,
un taux d’acceptation des défauts significatif.
le deuxième point est fondamental car il permet de vendre en masse une solution imparfaite et d’en faire rapidement descendre le coût pour la rendre très attractive. C’est tout le problème de la voiture sans chauffeur: le taux d’acceptation des défauts (accidents) est quasi nul, ce qui empêche d’en faire descendre le coût et d’en faire une solution viable.
L’IA générative est en cela beaucoup plus diversifiée que la conduite sans chauffeur: les cas d’usage sont multiples et la vie des hommes n’est pas forcément en jeu: on peut donc imaginer des cas où les deux critères coûts/acceptation seraient réunis, où le pilote pourrait être remplacé par l’IA.
Surmonter la barrière des coûts
On l’a vu, la structure des coûts est très défavorable aux start-ups, celles qui pourraient changer l’ordre établi en cherchant à remplacer le pilote. La pénurie de puces ad hoc entraine en plus d’un coût d’entrainement prohibitif une augmentation du cout marginal d’utilisation des modèles, à l’inverse de la logique de rupture. Il semble cependant qu’il y a encore des failles dans l’armure des Big Tech, failles qui devraient être exploitées rapidement avant que les mécanismes de défense se mettent en place.
L’arbitrage ChatGPT
Pour ChatGPT, tous les jetons ont la même valeur. Ils sont facturés uniformément: 0,002$ pour 1000 jetons par exemple pour GPP-3.5, entre 15 et 60 fois plus pour GPT-4. Or dans la réalité certains jetons peuvent être beaucoup plus précieux (le code par exemple). Il y a donc possibilité pour une start up qui se branche en API sur GPT d’entraîner un sous-modèle dont les token vaudront plus chers que le tarif mutualisé de ChatGPT. De préférence, la start up utilisera une API GPT-3.5, beaucoup moins cher que GPT-4. L’idée est de compenser l’infériorité du modèle en terme de puissance par la qualité des données utilisées pour l’entraînement. S’il est alimenté par les bonnes données au départ, le modèle hallucinera moins sur des cas d’usage précis. Une start up pourra alors développer un produit ciblé peu onéreux susceptible de remplacer le pilote, pourvu que les hallucinations ne soient pas trop gênantes. Cependant la fenêtre d’arbitrage va sans doute bientôt se refermer comme l’anticipe Daniel Gross, cofondateur de Cue, moteur de recherche acheté par Apple en 2013 et ancien partenaire chez Y-Combinator:
OpenAI ne fait pas de discrimination. Ils ont un problème avec leur tarification où ils disent que tout ce qui sort de notre usine est au même prix, nous payons par jeton, nous ne nous soucions pas de la valeur de ce jeton. C'est donc un problème pour eux car ils ne discriminent pas suffisamment, mais si je devais deviner, si nous pouvions examiner pleinement les données - c'est juste une hypothèse de ma part - ChatGPT dans son ensemble ralentit, mais l'intensité parmi les cas d'utilisation de valeur s'accélère probablement, et donc ils peuvent avoir besoin de corriger la façon dont ils monétisent ChatGPT, mais je pense que cela va probablement être une bonne chose. Je ne suis pas sûr que le cas d'utilisation des devoirs des étudiants soit vraiment pertinent, car ils n'ont pas de pouvoir d'achat. Chegg n'est pas une entreprise très prospère, mais je pense qu'Accenture réalise 13 à 14 milliards de dollars par an dans la création de logiciels, c'est donc une activité intéressante.
La fermeture de la fenêtre d’arbitrage est une bonne chose effectivement dans la mesure où elle va obliger les start up à penser en dehors de ChatGPT pour pouvoir mieux se différencier du concept de copilote.
L’arbitrage experts/GPUs
L’idée est d’utiliser des modèles pré-entrainés moins onéreux (vieilles générations, open source comme Llama) et de les nourrir par des experts pour l’entraînement; encore mieux est de créer son propre modèle avec ses propres données d’entrainement, pour se rendre indépendant des grandes infrastructures. ChatGPT a été gavé de propos d’internet, lequel est rempli d’hallucinations. Pour compenser ChatGPT multiplie les points de vue (grilles d’interprétation ou paramètres). Cela entraîne une surconsommation de GPUs en entraînement et inférence, cause du blocage actuel. En revanche, le monde est rempli d’experts en tout genre qui peuvent être utilisés pour produire des jetons de bonne valeur, accessibles avec un nombre limité de GPUs. Il est dès lors possible pour une start up de multiplier la production de jetons à bon marché et ainsi de pouvoir constituer une innovation de rupture. La aussi, il faudra aller vite car les Big Tech commencent à sérieusement s’intéresser aux experts. Nathan Friedman sur les experts:
Il se produit donc actuellement, sous la surface, une guerre de l'ombre pour les données où les plus grands laboratoires d'IA dépensent d'énormes sommes d'argent pour acquérir des jetons plus précieux, soit en payant des experts pour les générer, soit en travaillant par l'intermédiaire d'entreprises de labellisation comme Scale AI ou d'autres. Il y a une nouvelle génération de startups dans cet espace également et nous pensons qu'il va se passer encore plus de choses et que ce sera un espace vraiment intéressant à suivre.
Vous avez donc besoin de ces jetons à QI élevé et de grande valeur pour entraîner vos modèles, et les données moyennes que vous récupérez sur un site web aléatoire sont égales à toutes les autres données dont vous disposez, mais vous payez un supplément pour des données d'entraînement de grande valeur, et c'est pourquoi les gens les produisent. Je ne connais pas les chiffres exacts, mais j'ai entendu des rumeurs selon lesquelles Google dépenserait un milliard de dollars cette année pour générer de nouvelles données d'entraînement, et si vous allez dépenser des milliards et des milliards sur votre CapEx pour construire vos clusters d'entraînement GPU, dépenser une fraction de ce montant ou peut-être un montant égal pour générer des données, ce qui est une sorte de CapEx également, est logique. Quelqu'un m'a dit l'autre jour que les experts sont les nouveaux GPU et qu'il y a donc cette vague de dépenses pour des experts qui vont générer des jetons qui peuvent avoir de la valeur.
Numériser l’expert
Il faut aller vite, il y a peut-être une fenêtre d’un à deux ans avant que les arbitrages ne se referment. Entre temps des modèles de rupture utilisant la théorie de Clayton Christensen (le dilemme de l’innovateur) peuvent se construire sur l’idée de remplacer les experts. L’IA sera moins fiable certes que l’expert mais tellement moins cher et s’améliorera progressivement. Aussi pour de nombreuses applications, elle gagnera du terrain déplaçant l’expert sur les sujets les plus pointus. On peut penser aux « legal techs » qui peuvent dans un premier temps remplacer les juristes employés pour les contrats de protection juridique; mais aussi les SEO numériques qui peuvent chercher à déplacer les experts en placement de publicité, les commerciaux numériques agissant au travers de vidéos et d’échanges textuels, etc. Toute production textuelle, d’images ou de code, entraînée par des experts peut sous forme numérique remplacer ces experts, pourvu que les dommages collatéraux des hallucinations restent minimes et que le prix soit ridiculement bas.
Le plus spectaculaire est l’intérêt porté aux experts en hallucinations, c’est à dire à la psychologie humaine. C’est peut-être là que des modèles de rupture peuvent faire le plus mal: l’hallucination est intrinsèque au modèle qui peut alors avoir un coût très bas, n’étant pas contraint par l’exactitude et le nombre de paramètres. Character.AI est un réseau social centré sur les bots qui peuvent imiter des personnages connus ou être façonnés selon le caractère qu’on souhaite leur donner. Character.AI a son propre modèle transformateur, est donc indépendant des grandes infrastructures comme ChatGPT. D’après Digger Insights, le 21 août 2023:
Character.AI est un chatbot IA qui permet à ses utilisateurs de créer leurs propres personnages et de créer des compagnons IA personnalisables avec des personnalités variées et uniques. Personnellement, j'ai l'impression qu'il est plus personnalisable que ChatGPT.
D'abord sous la forme d'une application web, Character.AI a reçu 200 millions de visites par mois, les utilisateurs passant en moyenne 29 minutes par visite. La société qui en est à l'origine, Character Technologies, affirme que ce chiffre dépasse de 300 % celui de ChatGPT.
Character Technologies a été fondée par Noam Shazeer et Daniel De Freitas, des experts en IA qui ont dirigé l'équipe de chercheurs de Google responsable de la création de LaMDA (Language Model for Dialogue Applications). Ce modèle de langage est LE modèle qui a permis aux expériences d'IA conversationnelle de voir le jour. Croyant en la capacité de l'IA à réaliser des choses révolutionnaires, le duo a quitté Google en 2021 et s'est concentré sur la création de son chatbot d'IA.
Il n’est pas étonnant que Mark Zuckerberg, face à une telle menace, cherche à centrer la conversation sur son modèle open source Llama 2, espérant que les futurs créateurs de bots les distribueront et valoriseront sur ses propres applications, bien entendu compatibles avec ces modèles.
La course de la reine rouge n’est pas inéluctable. même si elle occupe 80 % du terrain aujourd’hui. Elle pousse les prix des GPUs à la hausse, lesquels sont largement réservés pour la course. Des acteurs astucieux peuvent essayer de se glisser dans les brèches pour pousser leurs innovations de rupture. Cependant, il est fort à parier que les grandes innovations attendront que les acteurs de la course finissent par s’épuiser et que la pénurie de GPUs se transforme en surplus. En attendant, un n-ième réseau social est l’innovation la plus probable…
Dans l’imaginaire collectif, l’intelligence artificielle mène au robot infaillible qui va remplacer l’homme; dans la vraie vie, elle est limitée à remplacer son imaginaire…
Bonne reprise,
Hervé