Action !
Les cimetières sont remplis de sociétés qui n’ont pas compris les règles du jeu.
Il y a un point commun entre les gouvernements et les LLMs (Large Language Models): les deux aiment les mots. Mais à la différence (peut-être) des gouvernements, les LLMs vont passer à l’action. En 2023, il y a eu beaucoup de bavardage de la part des chatbots, mais aussi beaucoup d’hallucinations…ChatGPT, Claude, Bard, Mistral ont réponse à tout; leur discours est structuré provoquant au départ un effet “whaou” indéniable. Ce côté magique de la réponse immédiate et bien composée à toute interrogation peut vite devenir frustrante quand on réalise qu’il faut tout vérifier. Dans ce contexte, deux types de produits se sont imposés en 2023:
Les produits 2023
Produits assumant le caractère hallucinatoire des LLMs: typiquement ces bots singent des humains (traits physiques et/ou de caractère, y compris donc les hallucinations). Character AI et Poe sont des plateformes permettant de créer ces personnalités (influenceurs IA). Meta va suivre. L’intérêt pour ces plateformes est la multiplication des interactions, source de publicité potentielle.
Les copilotes: le produit n’est pas assez sûr dans ses réponses, donc, il doit être contrôlé par son utilisateur qui trie les réponses pertinentes et hallucinatoires. La productivité de l’utilisateur est inversement proportionnelle au taux d’hallucinations du LLM utilisé (temps passé pour les éliminer). La plupart des LLMs servent à créer des copilotes (ChatGPT, Copilot, Einstein, Claude, Gemini, etc.). Pour réduire le taux d’hallucinations, on essaie de spécialiser les bots généralistes en leur donnant des connaissances précises sur un domaine restreint. C’est ainsi qu’OpenAI a lancé son GPT store début janvier. L’idée est de réduire le taux d’hallucination pour rendre le copilote plus efficace.
Les modèles générateurs d’image peuvent être classés dans l’une ou l’autre catégorie: soit on accepte l’hallucination comme caractéristique du modèle, soit on cherche à l’éliminer (par exemple dans le domaine de la création publicitaire).
Le graphique suivant donne une représentation de la popularité des modèles en 2023:
ChatGPT est le leader incontesté (copilote) suivi de Character AI (IA « humanisée » source d’interactions).
Je m’intéresse ici aux copilotes, qui sont des outils: ils ne sont pas destinés à remplacer mais à augmenter: donner plus de créativité et/ou faire gagner du temps. La motivation des Big Tech, fournisseurs de ces outils (les pics et les pioches) est de garder leurs clients et d’en tirer toujours plus. Pour ce faire, il faut les rendre plus efficaces. La productivité globale de l’économie s’en trouve améliorée sans pour autant changer la structure des métiers: toutes les sociétés ont intérêt à participer à la course de la reine rouge, au bénéfice des fournisseurs de pics et de pioches et du consommateur final. Le mécanisme est le suivant: les entreprises utilisent les copilotes pour devenir plus productives que les autres, constituant ainsi pour les retardataires une solide motivation à faire de même. Équipés des mêmes outils, les entreprises se trouvent en situation de concurrence équivalente et sont tentées de baisser leurs prix. Il n’y a pas encore d’innovations de rupture, capables de détruire ou marginaliser une industrie toute entière, pour un bond radical de productivité. L’internet par exemple a donné lieu à de nombreuses innovations de rupture:
-La diffusion à coût marginal zéro de l’information a tué la presse écrite (blogs puis Google et Meta)
-le streaming a tué la TV payante (Netflix).
-l’iPhone a marginalisé le PC.
-les puces ARM ont diminué la prédominance d’Intel.
-l’e-commerce a relégué au second plan la grande distribution (Amazon)
-Le Vision Pro va prendre la place des écrans de télévision
Dans le domaine du transport, le moteur électrique va remplacer le moteur à combustion (question de temps).
Quelle innovation de rupture peut-il sortir de l’IA générative ?
Remplacer au lieu d’augmenter
Une innovation de rupture nécessite une amélioration x10 et non x2 comme celle du copilote. Elle nécessite de créer des entreprises dont les flux de travail sont transformés par l’IA. Il y a là une différence fondamentale avec la logique du copilote qui est d’ajouter une IA à un flux de travail, de doter celui qui le réalise d’un GPT pour l’augmenter (les différentes couches spécialisées étant connectées par APIs). L’innovation nécessite l’intégration, non la superposition. D’après le Christensen Institute:
La théorie de la modularité est un cadre utile que les gestionnaires peuvent utiliser pour comprendre quelles activités de leur modèle d'entreprise doivent être réalisées en interne et lesquelles peuvent être externalisées de manière fiable auprès d'un fournisseur ou d'un partenaire. Cette théorie explique que les entreprises (voire des secteurs entiers) ont des architectures qui dictent la manière dont les différents composants de la chaîne de valeur doivent s'imbriquer les uns dans les autres. Nous appelons interface l'endroit où deux éléments de la chaîne de valeur s'emboîtent. Les interfaces peuvent être interdépendantes - ce qui signifie que l'activité est généralement réalisée en interne et étroitement contrôlée par l'entreprise - ou modulaires - ce qui signifie que l'activité est externalisée.
Selon cette théorie, l'architecture d'un produit doit utiliser une interface interdépendante lorsque deux composants ne s'assemblent pas de manière prévisible, et une interface modulaire lorsque deux composants s'assemblent de manière transparente. Les architectures interdépendantes sont nécessaires lorsque les entreprises créent des marchés, car de nombreux composants du produit ou de l'industrie sont encore nouveaux et n'ont pas encore été définis. Par conséquent, il est non seulement difficile de trouver des fournisseurs fiables, mais cela se traduit souvent par une faible satisfaction des clients. Lorsque les marchés arrivent à maturité, la modularité devient possible parce qu'il existe des interfaces et des normes plus prévisibles entre les composants.
Le GPT est au stade du légo (plug in), ce qui est inadapté au manque de maturité de cette innovation. L’innovation x10 nécessite de remplacer et pour cela intégrer IA et flux de travail. L’IA doit être capable d’exécuter des tâches en chaîne comme le ferait un salarié à partir d’un ordre (prompt) donné. La productivité pourrait alors être décuplée, donnant l’opportunité de créer de nouvelles sociétés susceptibles de perturber l’ordre établi. Nat Friedman, ancien directeur général de GitHub, donne ses anticipations pour 2024 dans un récent entretien pour Stratechery:
Je ne pense pas que nous ayons encore vu cela, quelques personnes ont commencé à le faire, mais quelqu'un a-t-il construit un ensemble de données de 20 millions de dollars sur l'utilisation enregistrée du navigateur ou de l'ordinateur et s'est-il entraîné à partir de ces données pour voir quel degré de fiabilité on peut en tirer pour, disons, un ensemble de 1 000 catégories de tâches communes ou quelque chose comme cela ? Je ne pense pas que nous l'ayons vu, mais je pense que nous le verrons l'année prochaine, il sera intéressant de voir jusqu'où cela ira.
Nous combinerons cela avec le prochain niveau d'échelle, nous verrons le modèle d'échelle GPT-5 ou ce qui succédera à Gemini arriver probablement au troisième ou quatrième trimestre de l'année prochaine. La combinaison de ces éléments nous fera-t-elle passer de l'ère du copilote supervisé par un humain à celle d'un employé virtuel capable d'effectuer certaines tâches d'assistant à votre place ?
L’idée est de faire passer l’IA du discours à l’action.
Du LLM au LAM
Rabbit R1 a été une des sensations du récent CES à Las Vegas. Les commandes en ont surpris plus d’un: 4 séries de 10 000 unités en une semaine avec des délais de livraison jusqu’à juillet 2024. Ce petit appareil doté d’un écran, d’un haut parleur, d’un microphone et d’une caméra 360 degrés, à l’allure rétro, est connecté à internet (Bluetooth, Wifi ou 4G). Il est relié aux serveurs Rabbit Tech qui font tout le travail d’inférence. L’appareil comprend les demandes qu’on lui présente (orales par défaut mais aussi textuelles) et les exécute en se connectant aux sites web, y navigant et donnant les instructions. L’utilisateur du Rabbit n’a plus qu’à donner son accord à la proposition qui lui est remontée. Rabbit anticipe les actions de l’utilisateur sur son smartphone, à travers les apps et les réalise à sa place. Pour ce faire, Rabbit OS intègre un nouveau modèle capable de transformer le prompt de l’utilisateur en un flux de travail qui correspond à celui de l’utilisateur d’un smartphone. Ce modèle est un mix de LLM et d’instructions déterministes: il est entrainé sur des données précises et des comportements relativement peu nombreux, réduisant le risque d’hallucination. Il débouche sur de actions déterministes, logiques retirant tout risque d’hallucinations. Ces actions enfin sont restituées par l’intermédiaire de token, le LLM prenant le relai. Le modèle tourne sur un cloud interne Rabbit. Voir la keynote ici.
Rabbit est une manifestation concrète d’un nouveau modèle qui complète la génération de textes ou images par la génération d’actions. Son usage peut être généralisé à d’autres actions que la navigation sur internet (pourvu qu’on ait les données). Ce type de modèles est entraîné sur la façon de faire et a pour vocation de remplacer les routines de travail. Une bonne partie des jobs existants, routiniers, pourraient disparaître pour ouvrir la voie à de nouvelles façons de faire inédites (sur lesquels les modèles ne peuvent encore être entraînés).
La stratégie Palantir
Palantir veut justement généraliser le modèle génératif d’actions à tous les flux de travail. Il s’appuie sur son produit principal Foundry qui intègre, nettoie et structure toutes les données de l’entreprise (en temps réel) pour pouvoir les utiliser intelligemment au travers d’applications. Foundry sert de base pour l'analyse et la prise de décision en fournissant un environnement où les données de différentes sources peuvent être harmonisées et rendues exploitables. Une fois que les données sont préparées et structurées dans Foundry, AIP (Advanced Intelligent Platform) peut être utilisé pour appliquer des modèles d'intelligence artificielle et d'apprentissage automatique. AIP, connecté à un LLM du choix de l’entreprise, se concentre sur l'analyse avancée et l'extraction de points de vue intelligents à partir des données traitées par Foundry. Les hallucinations sont considérablement réduites car le LLM est entraîné sur des données cohérentes. Il peut alors être intégré à des applications qui produisent des actions.
Palantir a fait sa démonstration d’AIP dans le domaine militaire, son activité première étant de fournir des systèmes informatiques intelligents au Pentagone et à ses alliés. Vice, le 26 avril 2023:
Palantir, la société du milliardaire Peter Thiel, lance Palantir Artificial Intelligence Platform (AIP), un logiciel destiné à faire fonctionner de grands modèles de langage comme GPT-4 et des alternatives sur des réseaux privés. Dans l'une de ses vidéos de présentation, Palantir montre comment une armée pourrait utiliser l'AIP pour mener une guerre. Dans la vidéo, l'opérateur utilise un chatbot de type ChatGPT pour ordonner la reconnaissance par drone, générer plusieurs plans d'attaque et organiser le brouillage des communications ennemies.
Dans le scénario de Palantir, un " opérateur militaire chargé de surveiller les activités en Europe de l'Est " reçoit une alerte de l'AIP indiquant qu'un ennemi amasse du matériel militaire à proximité des forces amies. L'opérateur demande alors au chatbot de lui montrer plus de détails, obtient un peu plus d'informations, puis demande à l'IA de deviner ce que les unités pourraient être.
"Il demande quelles sont les unités ennemies présentes dans la région et s'appuie sur l'IA pour élaborer une formation d'unités probable", explique la vidéo. Après avoir obtenu la meilleure estimation de l'IA sur ce qui se passe, l'opérateur demande à l'IA de prendre de meilleures photos. Celle-ci lance un drone Reaper MQ-9 pour prendre des photos et l'opérateur découvre la présence d'un char T-80, un véhicule russe de l'ère soviétique, à proximité des forces amies.
L'opérateur demande alors aux robots ce qu'ils doivent faire. "L'opérateur utilise le PGI pour générer trois plans d'action possibles afin de cibler l'équipement ennemi", explique la vidéo. "Ensuite, il utilise l'AIP pour envoyer automatiquement ces options à la chaîne de commandement. Les options comprennent l'attaque du char avec un F-16, de l'artillerie à longue portée ou des missiles Javelin. Selon la vidéo, l'IA indiquera même à chacun si les troupes à proximité disposent de suffisamment de Javelins pour mener à bien la mission et automatisera les systèmes de brouillage.
AIP a également été lancé pour transformer les flux de travail dans les sociétés commerciales. Parmi des clients, on trouve des entreprises comme HCA Healthcare, Eaton, Cisco ou le New York Stock Exchange, entreprises qu’on peut difficilement qualifier de start ups bouleversant l’ordre établi. Ces entreprises cherchent surtout à protéger leurs avantages concurrentiels contre l’ennemi. Mais celui-ci peut être constitué de sociétés établies comme de start ups.
Opportunités et secteurs menacés
Il faut chercher parmi les flux de travail à fort impact et routiniers, ceux qui pourraient être remplacés par la machine.
Typiquement, la navigation sur internet fait partie des tâches routinières et chronophages qui pourraient judicieusement être apprises par l’IA. Qu’en serait-il alors des navigateurs Chrome et Safari, de l’App Store et du Play Store, les vaches à lait de Google et Apple ? Il y a en fait un obstacle majeur au changement: les internautes prennent plaisir à surfer, ils le font à longueur de journée, en grande partie pour se divertir. Les gardiens du temple (Apple et Google) le savent et n’ont pas d’intérêt à ce que cela change. S’ils constatent que Rabbit fait des émules, ils peuvent proposer un service voisin en plus de la navigation classique, en intégrant un LAM accessible par pression d’un bouton, invocation de Siri ou Ok Google. Le Samsung S24 Ultra ouvre déjà la voie. Rabbit risque d’être relégué au rang de niche. Il faut chercher ailleurs, en dehors des puissantes Big Tech, les ruptures potentielles.
Si l’industrie est déjà largement robotisée, il n’en va pas de même des services qui représentent pourtant presque 80 % du PNB (aux Etats-Unis). C’est là que l’IA générative pourrait faire le plus de dégâts. Que font la plupart des cols blancs à part des tâches répétitives ? J’ai demandé à ChatGPT de me faire un tableau des activités de service les plus routinières:
Les administrations publiques ne seront pas les premières à être bouleversées car elles sont en situation de monopole. Quelle est la motivation à changer, si elle n’est fournie par l’aiguillon de la concurrence ? Le cas de la finance est un peu plus complexe car on a affaire plutôt à un oligopole (renforcé par la crise de 2008). Peut on imaginer une start up qui parte de l’IA pour constituer ses flux de travail (son mode opératoire) ? C’est en tout cas ce que pense Roddy Lindsay qui pourtant lance une start up IA dans le domaine de la santé, pas du financier. Voici ce qu’il écrit pour The Information:
Prenons un autre exemple : les services financiers. Il y aurait peut-être quelques centimes à gagner en proposant des copilotes IA aux banques et aux firmes de gestion de patrimoine pour aider leurs conseillers à envoyer des e-mails plus captivants. Mais la véritable innovation disruptive consisterait à lancer une entreprise de services financiers alimentée par l'IA qui associerait le contact humain proposé par les grandes banques aux faibles frais des robo-conseillers tels que Wealthfront. Cette entreprise serait créée de toutes pièces pour exploiter l'IA aussi bien en front-office pour augmenter le nombre de clients de chaque conseiller, qu'en back-office pour automatiser et optimiser les décisions de portefeuille. Le résultat serait un service différencié, personnalisé, à faible coût, sur le marché. <…>
Face à des concurrents agiles et économes exploitant l'IA, les acteurs établis se retrouveront soit à devoir augmenter considérablement leur effectif pour continuer à servir leur clientèle existante, soit incapables de trouver suffisamment de croissance pour soutenir leurs coûts de main-d'œuvre. Les licenciements inévitables des gestionnaires de relations clients accéléreront la rotation des clients et bénéficieront aux nouvelles entreprises utilisant l'IA.
Cela n’arrivera pas à mon avis pour une raison simple: la peur du défaut de paiement. Cette peur ancrée chez les clients protège les grands établissements (eux-mêmes protégés par l’Etat) contre toute incursion des FinTechs. Il faudra là encore chercher ailleurs la révolution.
La start up Zabit, lancée par Roddy Lindsay, est une bonne illustration d’un modèle disruptif construit autour de l’IA: la société cherche à changer le métier de coach santé. L’objectif d’un tel coach est de faire changer les mauvaises habitudes (routines) de ses clients. L’IA est parfaitement adaptée au suivi des routines, à la fixation d’objectifs et au contrôle des réalisations. Elle fait l’essentiel du travail de manière interactive avec la personne coachée. Le coach donne la touche humaine, supervisant le travail de l’élève, mais il économise 90 % de son temps. Son travail est largement pré mâché.
Ce modèle « low cost », qui va s’améliorer avec la quantité de données collectées, est très perturbant pour l’industrie du coaching qui se rémunère à l’heure. La tentation pour les coachs traditionnels sera d’adopter des copilotes IA, type ChatGPT, tout en prétextant que ces chatbots sont inefficaces, et de continuer à afficher le même nombre d’heures travaillées afin de protéger leur rémunération. De nouvelles manières de faire comme celle de Zabit peuvent ainsi progressivement rogner sur le métier traditionnel du coach.
Ce qui est valable pour le coaching pourrait l’être également pour de nombreuses autres professions de service, par exemple les cabinets d’avocat, comptables, d’audit etc. La motivation des anciens sera toujours la même: facturer le maximum d’heures. Des sociétés fondées sur l’IA, mécanisant les tâches routinières sur lesquelles une IA générative peut être entraînée, pourront casser les prix et s’imposer à leur détriment. Pour compenser, les anciens devront recruter des commerciaux, alourdir leurs charges et creuser encore plus l’écart. Les nouveaux gagneront en volume ce que les anciens perdront en prix. Ces sociétés d’un nouveau type risquent d’attirer le capital risque en raison:
de leurs marges élevées (du même acabit que les sociétés de software)
de leur faible intensité capitalistique.
de leur capacité à croitre au delà de ce que pourrait le faire une entreprise de service traditionnelle.
de l’opportunité présentée par le coût toujours plus exorbitant des services.
d’une concurrence faible, les anciens étant réticents au changement.
On peut élargir le raisonnement ci-dessus à toutes les entreprises traditionnelles. Leur bureaucratie est désormais potentiellement menacée par des concurrents super “low cost” plaçant l’IA générative d’action au cœur de leur dispositif. La défense naturelle va être de mettre en avant sa marque. Cependant, n’est pas Hermès qui veut…
Bonne et heureuse année,
Hervé