Text is back
Les cimetières sont remplis de sociétés qui n’ont pas compris les règles du jeu.
The Verge, le 31 janvier 2023:
Kevin Systrom et Mike Krieger sont de retour.
Les cofondateurs d'Instagram, qui ont quitté Facebook en 2018 au milieu de tensions avec leur société mère, ont formé une nouvelle entreprise pour explorer des idées d'applications sociales de nouvelle génération. Leur premier produit est Artifact, un flux d'actualités personnalisé qui utilise l'apprentissage automatique pour comprendre vos intérêts et vous permettra bientôt de discuter de ces articles avec vos amis.
Artifact - dont le nom représente la fusion d'articles, de faits et d'intelligence artificielle - ouvre aujourd'hui sa liste d'attente au public. Selon M. Systrom, la société prévoit d'accueillir rapidement les utilisateurs. Vous pouvez vous inscrire ici ; l'application est disponible pour Android et iOS.
Jusqu’à ces derniers temps, l’internet semblait suivre une direction claire dictée par les contraintes de la bande passante: du texte à l’image puis de l’image à la vidéo, enfin de la vidéo à la 3D. C’était le sens de l’Histoire. Au départ, il y avait les blogs et les sites d’actualité. compatibles avec une connexion à 56 kbit/s. Cette première phase fut propice à:
Google qui triait l’abondance de texte (sites internet) en fonction des intérêts de l’utilisateur,
Facebook qui triait les messages et articles en fonction de ses amis,
Twitter qui triait les messages courts et liens en fonction de ses centres d’intérêt.
Puis la photo a pris le dessus avec Snapchat (l’application s’ouvrait dans l’appareil photos ) et Instagram, nécessitant une bande passante plus importante. Ces réseaux rencontraient du succès dans les pays aux infrastructures évoluées. Enfin la vidéo s’est imposée (Netflix, YouTube, TikTok) ainsi que la 3D (Roblox et Fortnite) avec les connexions haut débit fixes et mobiles. L’étape ultime était le métavers qui devait permettre la rencontre virtuelle en temps réel, s’appuyant sur une bande passante quasi infinie. Le texte était l’ancêtre …
Or le texte revient en force, remettant brusquement en question l’avenir imaginé de l’internet:
L’IA générative nécessite la rédaction d’un texte, le prompt. La qualité du résultat dépend étroitement de celle du prompt, si bien que tout une économie se construit autour du prompt, de la formation à la rédaction jusqu’à la vente pure et simple de prompts spécifiques.
L’IA générative de texte est de loin la plus populaire, renversant la logique habituelle: ChatGPT annonce 100 millions d’utilisateurs en 2 mois! TikTok, le réseau social à succès avait mis 9 mois pour un tel résultat. Midjourney, l’IA de génération d’images la plus aboutie ne compte que quelques millions d’utilisateurs après 6 mois.
En conséquence, Google et Microsoft se livrent à une guerre de communiqués pour montrer que l’IA générative de textes sera insérée partout: dans le moteur de recherche et dans le navigateur en particulier, comme outils de recherche et de travail de textes. La question qui se pose maintenant est de savoir si l’IA generative de texte ne doit pas être première par rapport aux autres fonctions (voir mon article ChatGPT et la super app). C’est une question à plusieurs centaines de milliards de dollars !
Elon Musk, visionnaire s’il en est, acquiert Twitter à un prix défiant toute concurrence.
Enfin deux autres visionnaires cofondateurs d’Instagram, le réseau social de l’image et produit phare de Meta, créent un TikTok du texte ! Convaincus de l’ampleur potentielle de leur projet, ils le lancent simultanément sur IOS et Android, un signe fort de leur conviction…et de l’inversion de la direction de l’internet.
L’innovation du Transformer
On attribue à Napoléon Bonaparte cette phrase: “Un bon croquis vaut mieux qu’un long discours”. Elle a été largement reprise au XXème siècle en liaison avec la publicité: « une image vaut 1000 mots ». Au fil du temps, l’image et la publicité ont fusionné pour le plus grand bonheur de réseaux sociaux comme TikTok, Instagram ou Snapchat qui cumulent des milliards d’utilisateurs, soucieux de se mettre en scène. L’image simplifie et caricature, elle devient l’expression de la facilité (😱). Or la subtilité de l’homme se révèle dans le langage qui lui permet d’agir sur les autres et de transformer le monde. Les révolutions se font sur Twitter, pas Instagram…Le langage est extrêmement puissant mais fastidieux à apprendre et à utiliser. C’est pourquoi une invention qui permet de décupler l’efficacité du langage peut changer la pente naturelle des progrès de l’internet: cette invention est le « Transformer ». J’ai demandé à Poe, le nouveau chatbot de Quora:
Le modèle Transformer a une grande capacité de traitement de texte grâce à la pondération des mots en fonction du contexte. L’innovation est l’utilisation de mécanismes d’attention:
En bref, le modèle Transformer peut avoir une compréhension beaucoup plus fine du texte qui lui est soumis, ce qui lui permet de restituer une production adaptée à la demande. Cela explique l’aspect « magique » des restitutions et la fascination pour les modèles du type ChatGPT par exemple. Un outil qui permet de comprendre le langage, donc la subtilité de l’homme, et de restituer un texte (une redite de ce que le système a ingurgité) sur cette compréhension est complètement inédit. C’est une innovation « 0 à 1 » selon la terminologie de Peter Thiel…d’où l’aspect viral.
Le futur à l’envers
De la fin des années 90 à 2022, la réelle contrainte pour le développement de l’internet était la bande passante. Le mythe du progrès lié à l’augmentation de la bande passante était alimenté par des auteurs « visionnaires » comme Georges Gilder (Telecosm: How Infinite Bandwidth Will Revolutionize Our World) ou Bill Gates (The Road Ahead). Des milliers de km de fibre furent alors posés sur terre et sur mer, pour faire se rejoindre les continents. La liaison du dernier km, extrêmement onéreuse ne suivait pas contraignant le développement des applications. Il s’en est suivi un hiver technologique et un passage très progressif du texte à l’image puis à la vidéo, enfin à la 3D et éventuellement au métavers. Avec l’amélioration de la bande passante le progrès était de passer de l’asynchrone au synchrone pour rapprocher les gens (internet de la mondialisation).
Le modèle Transformer et les innovations qui commencent à poindre pour l’exploiter nous placent dans une situation troublante par rapport à ce futur idéalisé. Le progrès n’est plus le rapprochement entre les êtres mais leur productivité, dynamisée par le levier du langage. Dans ce cadre, le texte répond efficacement aux demandes variées de l’esprit humain alors que l’image est une simplification dont la vocation est essentiellement commerciale, de propagande. Vu sous l’angle de l’efficacité, la contrainte devient le calcul matriciel et celui-ci est plus poussé pour le texte qui nécessite le cloud que pour l’image, qui peut être traitée en local sur une puce d’IPhone. La bande passante devient secondaire. Dans ce nouvel environnement, le progrès sera de passer du texte à images (ou vidéo) au texte à texte, le plus productif et demandeur en GPUs ou autres TPUs. Les grands gagnants seront ceux qui sauront économiser au maximum la puissance de calcul matriciel par unité de texte produit.
Je vois trois grands thèmes qui pourraient être influencés par l’invention du Transformer, dans sa version la plus aboutie, celle du texte à texte: le moteur de recherche, les applications de productivité et les réseaux sociaux.
Le moteur de recherche
Microsoft et OpenAI, forts du succès de ChatGPT, voudraient nous faire croire que ce dernier, intégré à Bing, va révolutionner le moteur de recherche et réduire Google à l’obsolescence. Il y a pour Microsoft non seulement un marché de $160 milliards à prendre mais aussi un moyen d’affaiblir un prétendant sérieux aux outils de productivité comme Azure ou Office. La récente présentation de Satya Nadella du 8 février 2023 a été remarquable: il a réussi à faire passer Microsoft pour David affrontant Goliath alias Google. En l’occurence Microsoft pèse $2 trillions en bourse, presque deux fois Alphabet ! Extrait d’un interview de Satya Nadella par Dylan Patel à propos de Bing, $11 milliards de chiffre d’affaires par rapport aux $162 milliards de Google Search:
Vous voulez en faire une véritable entreprise. Vous voulez prendre des parts de marché. Mais évidemment, la nouvelle technologie n'a pas la même structure de coûts que l'ancienne requête de recherche. Je suis sûr que, quoi que vous fassiez avec OpenAI, c'est plus intensif en termes de calcul, et puis évidemment vous avez un partenaire assis au milieu de tout ça. Et puis le modèle de monétisation est toujours les annonces de recherche. Ce sont des annonces de recherche à réponse directe. Mais comme vous apportez de plus en plus de contenu à l'écran, ce modèle pourrait changer ou le prix de ces annonces pourrait changer.
C'est merveilleux. Pensez à ce que vous venez de dire. Vous avez dit : " Ok, voici la plus grande catégorie de logiciels dans laquelle nous avons la plus petite part ", et ce que vous venez de peindre est une image incroyable de marge brute supplémentaire. Si [l'ancien PDG de Microsoft] Steve Ballmer avait vu ça, il se serait illuminé et aurait dit "Oh mon Dieu". Il n'y a que très peu d'occasions comme celle-ci dans l'histoire où vous pouvez soudainement commencer une nouvelle course avec une base où chaque jour est une marge brute incrémentale pour vous et où quelqu'un d'autre doit jouer pour tout protéger : chaque utilisateur et toute la marge brute.
Steve Ballmer est l’ancien PDG de Microsoft, célèbre pour s’être moqué de l’IPhone, lors de sa sortie en 2007. Google subit maintenant l’ironie de son successeur Satya Nadella. Le biais dans la présentation est de considérer l’avenir de la fonction recherche sous l’angle du prompt, qui “transformerait” la manière de chercher…L’accroche du nouveau Bing est:
Comme la réponse à un prompt est coûteuse en calcul matriciel, c.q.f.d., Google cherchera à protéger ses marges et restera sur ses vieilles pratiques…
C’est pourquoi, une fois de plus, je sors mon Bastiat (Ce qu’on voit et ce qu’on ne voit pas):
Ce qu’ont voit: l’aspect magique de pouvoir produire un texte fiable (ton d’autorité) sur la base d’une simple demande,
Ce qu’on ne voit pas: 1/ la nécessité de travailler le prompt pour obtenir une réponse convenable. 2/ l’enfermement de l’utilisateur dans une réponse éventuellement en dehors de la plaque.
Or, l’apport de la fonction recherche est d’apporter une réponse pertinente très rapide à une demande écrite également très rapide. L’anticipation est la vertu première. En ce sens, le prompt est un obstacle, voire un retour en arrière. C’est pourquoi en ce qui concerne la recherche, l’apport de la technologie Transformer n’est pas dans le prompt mais dans l’analyse des textes à restituer, en réponse à des requêtes les plus courtes possibles. La finesse d’analyse va permettre l’anticipation: Google qui a le plus de liens référencés et utilise déjà cette technologie (dont il est l’inventeur) dans son moteur de recherche est plutôt en avance sur le sujet. Il utilise BERT depuis 2018. Sundar Pichai, lors de la dernière conférence sur les résultats d’Alphabet:
Et dans le domaine de la recherche, des modèles de langage comme BERT et MUM améliorent les résultats de recherche depuis quatre ans maintenant, permettant des améliorations significatives du classement et la recherche multimodale comme Google Lens.
BERT est moins spectaculaire que ChatGPT. Les utilisateurs de Google ne savent même pas qu’ils utilisent BERT, celui-ci oeuvrant en arrière plan pour améliorer la vitesse et la qualité des résultats des requêtes. BERT (et MUM son dérivé) est le véritable avantage concurrentiel du moteur de recherche de Google, il mutualise les prompts, à partir de requêtes simples des utilisateurs et en réduit ainsi fortement le coût matriciel. Pour la plupart des requêtes, il n’est nul besoin de poser une question complète (rédiger un prompt) et quand c’est le cas (question type Wikipedia), la monétisation est quasi-nulle. La stratégie de Google a toujours été de protéger le coeur de son avantage concurrentiel, le moteur de recherche en édifiant des défenses solides quitte à les payer cher: Android, Chrome, les $ dizaines de milliards payés à Apple pour apparaître en position proéminente sur IOS ont été jusqu’à présent extrêmement efficaces. Google va probablement faire de même avec BARD, l’équivalent de ChatGPT, qui sera utilisé pour les requêtes directes et coûteuses des utilisateurs, sans que cela ne réduise la partie juteuse (liée au commerce). Google fait de bons produits mais n’est pas un bon commercial: ses présentations sont catastrophiques par rapport à celles de Microsoft.
Microsoft, lui, agite le chiffon rouge pour éviter que l’on s’en prenne à son propre avantage concurrentiel: la suite Office. Car c’est sur les applications de productivité que le chatbot peut faire le plus de ravage…
Les applications de productivité
Le grand apport du chatbot, prompt à texte, est sa capacité à rédiger un texte construit (rapport, e-mail, poème, tableau, etc). Le temps pris pour rédiger un prompt efficace est largement compensé par la rapidité et consistence de la réponse, qui font économiser des heures de travail. L’intégration du chatbot à une suite de productivité permettant présentation et collaboration est un développement logique, puisque tout dans l’entreprise finit par un PowerPoint, un tableau Excel ou un document Word. La monétisation par abonnement est également très adaptée à la suite de productivité comme au chatbot. La conséquence est que le chatbot va donner une nouvelle impulsion à la suite de productivité et à la rendre nettement plus performante. C’est évidemment un risque pour Microsoft qui doit défendre sa position de leader sur un produit qui va être profondément transformé. De même que Google compte sur des milliards d’utilisateurs pour garder sa domination dans Search, Microsoft va s’appuyer sur sa clientèle entreprise acquise (sa puissance de distribution) pour faire évoluer en douceur la suite Office et garder le leadership sur la productivité. L’intégration d’Office et ChatGPT risque cependant d’entraîner un rejet de la part des développeurs inquiets des systèmes fermés de Microsoft. OpenAI ou CloseAI ?
Il est probable qu’il y ait des attaques verticales à partir de chatbots open source nourris par des bases de données spécialisées capable de répondre avec un minimum d’hallucinations (droit, médecine, histoire…) Humata Ai est une démonstration de la façon de gérer aisément une base spécialisée: il suffit de cliquer-déposer un pdf de moins de 60 pages et il est alors possible de cuisiner ce pdf. La base de données a été créée d’un simple clic ! Certes, le produit n’est pas encore très au point mais il préfigure les applications spécialisées futures qui pourront se nourrir en un clic du code civil, d’une encyclopédie historique ou autre.
Le sujet de la productivité va être un terrain de chasse particulièrement fertile où produits de niches et grandes plates-formes vont coexister selon le schéma suivant :
De nombreux cols blancs en feront les frais (milieu du graphe)
Les réseaux sociaux
Le prompt est à la mode, mais obscurcit une tendance forte: celle de se faire servir du contenu avant même de le demander. Dans ce monde qui est celui de TikTok, Reels et YouTube shorts, le prompt n’existe pas ou a été relégué en arrière plan, sous-traité aux grandes plates-formes. TikTok a atteint 100 millions d’utilisateurs en 9 mois, un record après ChatGPT. YouTube Shorts atteint 50 milliards de vue au 4eme trimestre 2022 contre 30 milliards au premier trimestre 2022, une croissance de 66% en trois trimestres !
Jusqu’à présent, à la différence de la vidéo, le texte a du mal à percer. Il est prioritairement servi par le graphe social et non une IA. Le graphe social de Facebook, facile à constituer s’est rapidement étendu pour atteindre aujourd’hui 2 milliards de personnes. Seulement, les amis ne sont pas le meilleur vecteur pour véhiculer des textes pertinents, ce qui fait que Facebook patine. Twitter lui a eu beaucoup de mal à construire un graphe social car trouver les inconnus à suivre qui partagent des centres d’intérêt est compliqué. Twitter après 17 ans n’a que 260 millions d’utilisateurs quotidiens. En résumé, le texte a du mal car il est difficile d’adresser le bon mot aux bonnes personnes. Il n’en est pas moins d’un intérêt extraordinaire.
La technologie Transformer peut changer la donne car elle comprend finement le langage. C’est sur elle que misent les cofondateurs d’Artifact, et probablement aussi Elon Musk (cofondateur d’OpenAI), pour relancer la conversation. Sundries, le 13 février 2019:
La percée qui a conduit à Artifact est Transformer, inventé par Google en 2017, une architecture de réseau neuronal pour la compréhension du langage qui utilise beaucoup moins d'entrées qu'auparavant. Cette technologie a aidé les systèmes d'apprentissage automatique à s'améliorer à un rythme beaucoup plus rapide, ce qui a directement conduit à la sortie de ChatGPT l'année dernière et au boom correspondant de l'intérêt pour l'IA. (Transformer est le "T" de ChatGPT).
Dans ce nouveau champs de bataille, Artifact et Twitter sont à l’attaque, essayant de briser la barrière du graphe social alors que Facebook est en défense. Mais c’est aussi l’occasion pour lui de redonner du lustre à l’application Facebook, comme il l’a fait récemment avec Instagram en introduisant les Reels.
La technologie Transformer couve depuis une demi-dizaine d’années; nous assistons à son éclosion. Je donne le dernier mot à Andy Jassy, PDG d’Amazon:
Je pense que ce qui est possible avec l'IA générative est passionnant, et c'est en partie ce que vous voyez avec des modèles comme ChatGPT. Mais la plupart des grandes entreprises très techniques, comme la nôtre, travaillent depuis longtemps sur ces très grands modèles d'IA générative.
Bonne semaine,
Hervé