Des millions par-ci, des milliards par-là. La frénésie autour de l’IA générative, commencée à la sortie de ChatGPT, il y a dix-huit mois, ne faiblit pas. Elle semble même avoir passé la vitesse supérieure. Lors de l’ouverture du Salon VivaTech, le 22 mai, une nouvelle start-up française a annoncé la levée de 220 millions de dollars dans le cadre de son amorçage, sa toute première levée de fonds. Un événement rarissime, la dénommée “H”, fondée par des anciens de DeepMind, se payant même le luxe de faire mieux que la pépite Mistral AI à son propre démarrage.

Ce départ en fanfare s’explique par l’ambition de H, lancée vers l’intelligence artificielle générale (AGI), le Graal établi par le leader du secteur, OpenAI. Une course à laquelle la jeune pousse entend contribuer grâce aux “modèles agentiques”, écrit-elle dans un communiqué, une technologie visant à façonner des “agents” spécialisés, capables de raisonner, de planifier des actions et de collaborer avec les humains, ou entre eux. La grande tendance du moment dans l’IA. “Selon moi, l’IA agentique offre d’immenses possibilités et promet de dépasser les capacités actuelles de la GenAI”, confie à L’Express Daniel Dines, directeur général d’UiPath, un investisseur majeur de H. Une centaine d’entreprises – dont bien sûr OpenAI – travaillent activement sur ce sujet, révèle dans une récente étude la firme technologique néerlandaise Prosus Group.

Pour comprendre cet engouement, un petit retour en arrière s’impose. Les solutions actuelles d’IA générative, à l’instar de ChatGPT, reposent sur de grands modèles de langage, ou LLM, comme GPT-4. A chaque requête, le chatbot propose une réponse presque entièrement statistique, basée sur la probabilité qu’un tel mot puisse intervenir après un autre. Cette méthode, en raison de l’apprentissage colossal de données imposé à ces programmes, donne des résultats plus que corrects. D’aucuns diraient bluffants, mais loin d’être parfaits, constatent aujourd’hui bon nombre de scientifiques de premier plan, comme l’Américain Andrew Ng (Coursera), ou le patron de l’IA de Meta, le Français Yann LeCun, qui jugent les LLM actuels limités à des demandes très générales d’écriture ou d’analyse de document. Qui plus est, les LLM se trompent régulièrement et, parfois, inventent quand ils ne savent pas. On dit alors qu’ils “hallucinent”.

C’est donc ici qu’interviennent les agents, en allant “un stade au-dessus” de ce que proposent les LLM, indique Aymeric Roucher, ingénieur spécialiste du sujet au sein de l’entreprise HuggingFace. Grossièrement, ces programmes, toujours nourris par des LLM, mais configurés de façon spécifique, “sont capables d’appeler des outils externes (logiciels, services Web…) ou de réfléchir à ce qu’ils génèrent pour arriver au meilleur résultat”, résume l’expert. Ils privilégient ce que l’on appelle “l’itération”, soit la répétition d’un calcul jusqu’à ce qu’une condition, de performance ou de qualité, soit atteinte. Les agents se révèlent ainsi plus efficaces d’après les critères de référence, les benchmarks, les plus poussés de l’industrie, observe Aymeric Roucher.

“Plus d’automatisation”

Name: IA générative : ces “agents” qui électrisent le secteur de l’intelligence artificielle
Uploaded: 2024-06-03T16:45:00+00:00
Channel: Claudio Ctin
Description: Des millions par-ci, des milliards par-là. La frénésie autour de l’IA générative, commencée à la sortie de ChatGPT, il y a dix-huit mois, ne faiblit pas. Elle semble même avoir passé la vitesse supérieure. Lors de l’ouverture du Salon VivaTech, le 22 mai, une nouvelle start-up française a annoncé la levée de 220 millions de

L’horizon, pour les agents, est d’intervenir sur des tâches plus complexes, que l’on ne peut résoudre en une seule requête aussi appelée “prompt”. “Imaginez que vous vouliez planifier un voyage : un agent personnel peut tout réserver, du vol à l’hôtel, et même payer,” explique Florian Douetteau, patron de la licorne Dataiku. Contrairement aux LLM, les agents privilégient l’action à la simple recommandation. Le grand public a déjà commencé à les expérimenter. Avec les GPT personnalisés proposés par OpenAI, désormais accessibles gratuitement. Ou encore avec le système RAG (pour retrieval augmented generation), un agent qui permet à des chatbots comme ceux de Google ou de Perplexity d’aller rechercher des sources d’information récentes appuyant leurs réponses, alors que les LLM disposent de connaissances limitées à la date de leur entraînement, qui remonte généralement à plusieurs mois.

Les entreprises aussi s’y mettent, petit à petit. Laurent Daudet, à la tête de LightOn, construit des agents professionnels avec des rôles sur mesure. En ce moment, il planche pour un client sur “un agent de réponse de système automatique à des appels d’offres”. Un boulot typiquement “agentique”, puisqu’il nécessite l’accès à différents outils, données textuelles ou chiffrées, et d’actions pour obtenir un résultat. “La compréhension de l’appel d’offres, la consultation de la documentation interne, la comparaison à d’autres appels d’offres réalisés dans le passé…” liste Laurent Daudet. Une fois de plus, l’objectif est que l’agent puisse mener l’opération de A à Z. “Pour les entreprises, l’enjeu de cette nouvelle étape de l’IA générative, c’est d’apporter plus d’automatisation sur des tâches spécifiques”, pointe Florian Douetteau, de Dataiku.

Vers les équipes d’agents

Les nouvelles architectures dites “agentiques” des modèles, comme promises par H, devraient rendre les agents toujours plus performants et autonomes, avec de meilleures capacités mémorielles et des possibilités d’action et de planification accrues. “Ce qui semble un passage obligé pour l’IA générative, afin de servir à quelque chose dans le monde réel”, pense Aymeric Roucher. L’espoir est ensuite de pouvoir les faire travailler en équipe. C’est ce que l’on appelle le “multi-agent”. “Ce système est notamment testé, actuellement, pour du développement d’applications Web”, relate le patron de Dataiku, Florian Douetteau. “Un agent va jouer le rôle du manager produit, un deuxième, celui du développeur, un troisième, du testeur, un quatrième, enfin, va tous les synchroniser… Et ils vont discuter afin de créer la meilleure application possible.” Une sorte de déclinaison technologique de l’adage : “Seul, on va plus vite ; ensemble, on va plus loin.”

Si la recherche avance très vite en ce moment, grâce à d’importantes librairies de code open source telles qu’AutoGen (Microsoft), LlamaIndex ou CrewAI, les systèmes multi-agents ne sont toutefois pas encore prêts à déferler sur le monde. Non seulement, les agents ont besoin d’avoir accès à un nombre d’outils considérables afin d’être le plus autonomes possible, mais surtout, ils ont besoin d’apprendre à les utiliser. “Il faut, pour cela, des fichiers avec des séquences d’action réalisées par des humains. Des actions qui ont réussi et d’autres qui ont échoué. Ce n’est pas si simple”, livre Florian Douetteau.

Certains tentent de combler ce manque. C’est le cas de Rabbit et de son petit appareil futuriste baptisé “R1”, présenté comme un assistant d’un nouveau genre, pilotable à la voix. L’engin embarque un LAM – pour “large action model” –, qui imite les interactions que peut avoir l’utilisateur avec des applications comme Airbnb, afin de réserver un voyage. Comme si elle regardait au-dessus de son épaule, la machine s’entraîne à comprendre comment effectuer les tâches en lieu et place de l’humain, et pouvoir l’imiter par la suite.

Une fois ces obstacles franchis, l’ingénieur de HuggingFace Aymeric Roucher “ne voit pas de limites à ce que peuvent accomplir les agents”. Selon lui, ces derniers “vont pouvoir effectuer tout ce que l’on réalise derrière un ordinateur”. Une perspective alléchante, qui rappelle cependant les défis que l’IA générative devrait poser, à terme, dans nos sociétés. En particulier dans l’organisation du travail. Sam Altman, patron d’OpenAI, imagine les agents comme des “collègues super compétents qui savent absolument tout sur toute [notre] vie, chaque e-mail, chaque conversation”, a-t-il expliqué à la MIT Technology Review. En découlent inévitablement d’autres problématiques, d’ordre éthique, si d’aventure ces agents auxquels on confie nos données personnelles et la possibilité d’agir à notre place étaient détournés à des fins malveillantes. “De nouvelles interfaces utilisateurs sont à imaginer”, estime Florian Douetteau, pour permettre des validations humaines à différentes étapes. Histoire de garder le contrôle sur ces machines qui semblent aspirer, de plus en plus, à se passer de nous.