Joëlle Barral (Google DeepMind) : “Dans l’IA, la France a de nombreux atouts”

Joëlle Barral (Google DeepMind) : “Dans l’IA, la France a de nombreux atouts”

Matignon ne s’y est pas trompé. Pour lancer la fusée France dans l’espace de l’intelligence artificielle générative, l’expertise d’une Joëlle Barral est précieuse. Diplômée de Polytechnique et de Stanford, la Française directrice de la recherche en IA de Google DeepMind connaît aussi bien la vibrante Silicon Valley que l’écosystème numérique tricolore. Tout au long de sa carrière, elle a œuvré à mettre la technologie au service de la science et de la santé, accumulant les brevets dans la robotique chirurgicale ou l’imagerie médicale. Cela n’a donc rien d’un hasard si elle a été invitée à faire partie du comité de l’IA générative qui rendra sous peu ses recommandations au président de la République. Rencontre.

L’Express : Dans l’IA, il semble y avoir un triptyque clef : les talents, les datas, les infrastructures. Commençons par les talents. Comment se situe la France sur ce plan par rapport à d’autres pays, notamment les Etats-Unis ?

Joëlle Barral : La France fait partie des acteurs qui comptent dans l’IA. Elle a de nombreux atouts dans ce domaine, notamment des talents, de par son héritage scientifique. Grâce à ses formations d’excellence, elle a des gens formidablement bien formés en mathématiques, mais aussi dans d’autres matières qui leur permettent d’être les entrepreneurs d’aujourd’hui. Ne prenons pas cet atout pour acquis : il faut continuer à faire beaucoup de maths pures, mais il faut aussi faire plus de maths appliquées. Avoir des personnes à même de construire de grands modèles de langage (LLM) est stratégique. Mais il faut également d’autres profils, qui sauront utiliser cette technologie dans toutes les industries. En France, il y a un étonnant clivage : d’un côté une petite portion de personnes très bonnes en maths, et de l’autre côté un nombre important de personnes qui pensent que c’est hors de leur portée. Aux Etats-Unis, vous n’entendrez pas un jeune de 20 ans vous dire “les maths, ce n’est pas pour moi”. Il serait bon qu’un grand nombre de formations postbac incluent des cours obligatoires d’informatique et d’IA. Cela aiderait beaucoup d’étudiants à se rendre compte qu’ils ne sont pas aussi mauvais qu’ils le pensent, voire qu’ils aiment ces matières. Et de bien comprendre la manière dont leur discipline, qu’il s’agisse de biologie, d’histoire ou de graphisme, peut être transformée par l’IA.

L’IA requiert aussi de la puissance de calcul, des infrastructures de stockage… Sur ces sujets, nous sommes très loin derrière les Etats-Unis, où se trouvent les plus grands acteurs mondiaux du cloud : Amazon, Microsoft et Google. Quelle stratégie adopter, vu le montant vertigineux des investissements que cette couche très physique du secteur requiert ?

La France a un certain nombre de pièces du puzzle, par exemple, à Grenoble, une expertise en semi-conducteurs mondialement reconnue. Elle peut capitaliser là-dessus, car il y a beaucoup de recherches en cours pour optimiser la manière dont interagissent toutes les briques hardware permettant d’entraîner les IA et de les interroger. Il faut identifier les endroits où la France peut se différencier dans cette chaîne de valeur et chercher à devenir un acteur incontournable dans un écosystème globalisé, plutôt que d’essayer de tout faire et de peiner à tout rattraper, sachant qu’on parle de puissances de calcul très importantes et qu’il y a un retard européen indiscutable.

Les données sont essentielles pour entraîner les IA. Dans ce domaine, la France n’est-elle pas un nain, comparée aux Etats-Unis et à la Chine ?

Cette inquiétude me semble infondée, car le Web est ouvert à tout le monde. Les sociétés de tous les pays ont un accès similaire aux données qui s’y trouvent.

Mais au-delà de la façade publique des grandes plateformes, que des acteurs plus ou moins soucieux de RGPD ont pu aspirer, il y a un gisement bien plus grand de données que les géants du numérique collectent dans l’ombre – le comportement de leurs clients, par exemple. Et cela, leurs concurrents ne peuvent pas y accéder.

Bien sûr, il y a des données propriétaires dans tous les secteurs. En France, certains grands industriels ont très bien mené leur transition numérique. Ils ont désormais des données bien organisées qui peuvent être très intéressantes à exploiter. Au niveau du service public, il y a également un terrain propice à de passionnants développements. Gardons aussi à l’esprit que l’on parvient de mieux en mieux à entraîner des IA à partir de données synthétiques, c’est-à-dire des données elles-mêmes créées par des intelligences artificielles. C’est particulièrement le cas en santé, où l’anonymisation des informations est cruciale, mais techniquement complexe à obtenir, voire impossible. L’autre atout de la France dans le domaine des données, c’est la langue : Il y a 300 millions de personnes qui parlent français dans le monde, et ce nombre est en forte augmentation. Le français pourrait devenir l’une des langues les plus parlées dans le monde d’ici à 2050. Ce référentiel est donc très pertinent pour l’entraînement des IA.

Les entreprises de tous secteurs doivent-elles adopter l’IA le plus vite possible ?

Il faut commencer par expérimenter sans un objectif trop précis. C’est ainsi que l’on voit le mieux où l’IA peut être utile et où elle ne sera pas pertinente. Globalement, nous pensons que l’IA va nous aider à augmenter à la fois nos connaissances, notre compréhension de l’information, notre productivité et notre créativité.

Que l’IA fournisse à chaque élève, quels que soient ses moyens, un assistant pédagogique, est une perspective enthousiasmante. Mais comme vous le rappelez vous-même, l’IA commet parfois des erreurs. Comment s’en saisir intelligemment dans la sphère éducative ?

Dans la sphère éducative, je pense que les IA seront en effet des assistants. Quand j’apprenais l’allemand au collège, j’enregistrais des phrases sur un magnétophone pour me faire des dictées. L’IA peut proposer des exercices bien plus ludiques et sophistiqués. Elle suivra ce que l’élève maîtrise et ce sur quoi elle doit le faire s’exercer davantage. L’élève peut également lui indiquer ce sur quoi il bute. L’IA peut donner aux enseignants des idées d’énoncés plus ludiques, par exemple un problème de statistiques inspiré du match de foot de la veille.

L’IA générative de Google, Gemini, a été critiquée en février. Certains lui reprochent de privilégier excessivement la diversité à la vraisemblance historique. L’outil a par exemple généré des images de nazis de multiples couleurs de peau. Pouvez-vous nous expliquer le mécanisme qui a conduit à ce type d’erreurs et la raison pour laquelle elles n’ont pas été détectées en amont, lors de tests internes ?

Il y a quelques semaines, nous avons lancé une fonctionnalité de génération d’images pour l’application Gemini. Cependant, certaines images générées se sont révélées imprécises, inexactes ou offensantes. Nous avons admis ces limitations, et mis en pause la fonctionnalité pour l’améliorer. Deux problèmes ont été identifiés.

D’abord, le système ne fonctionnait pas correctement pour certains cas spécifiques. Nous voulons que Gemini représente un éventail diversifié de personnes, et il n’a pas correctement identifié les cas où cette diversité n’est pas pertinente. Ensuite, le modèle est devenu trop prudent : il a refusé de répondre à certaines requêtes anodines, les interprétant comme sensibles. Ces deux éléments ont conduit le modèle à avoir un comportement inadapté, générant ainsi des images gênantes et erronées. Nous avons donc pris la décision de suspendre temporairement la génération d’images de personnes, et nous travaillons sur une version améliorée, afin de proposer une fonctionnalité fiable et utile, capable de générer des images précises et conformes aux attentes de nos utilisateurs.

Faut-il une correction ciblée ou un changement d’approche plus global pour corriger les biais des données d’entraînement sans que cela ne crée de nouveaux problèmes ?

Comme nous l’avons dit dès le début, les hallucinations sont un défi connu pour tous les LLM. Il y a des cas où l’IA générative se trompe. C’est un point que nous nous efforçons constamment d’améliorer, et la factualité est un domaine de recherche très actif. Gemini est conçu comme un outil au service de la créativité et de la productivité, et il peut parfois ne pas être fiable, surtout lorsqu’il s’agit de générer des images ou du texte sur des événements récents ou des sujets sensibles. Gemini essaie de donner des réponses factuelles aux requêtes – et notre fonction de double vérification aide à évaluer s’il existe un contenu sur le Web qui corrobore les réponses de Gemini -, mais nous recommandons à nos utilisateurs de s’appuyer sur notre moteur de recherche, où des systèmes distincts font remonter des informations fraîches, de haute qualité et provenant de différentes sources à travers le Web. Je ne peux pas promettre que Gemini ne générera pas occasionnellement des résultats embarrassants, inexacts ou offensants – mais je peux promettre que nous continuerons à prendre des mesures chaque fois que nous identifierons un problème.

L’IA suscite beaucoup de peurs irrationnelles. Quels risques sont réels, lesquels sont de purs fantasmes ?

Je classe généralement les risques en trois catégories. D’abord, ceux liés aux personnes qui utilisent l’IA avec un but malveillant. Des usages à combattre. L’IA peut aider à cet égard. Dans la sphère de la cybersécurité, elle est utilisée par des hackers, mais aussi pour détecter ces derniers. Le deuxième danger est lié aux limites actuelles de l’IA. Les IA risquent d’être parfois utilisées pour des choses qu’elles ne savent en réalité pas encore bien faire et d’apporter des réponses biaisées. La troisième catégorie, celle des risques existentiels, est parfois plus de l’ordre du fantasme, même s’il faut étudier ce que ces modèles pourraient faire quand ils seront plus puissants.

Que pensez-vous de l’AI Act européen ?

L’Europe a le mérite d’avoir mis tout le monde autour de la table. Son ambition de réguler par cas d’usage est pertinente. Au sein de Google, nous avons toujours dit que l’IA était trop importante pour ne pas être régulée. Je crois que l’AI Act est un pas dans cette direction, même s’il y a encore beaucoup de chantiers à mener, car la technologie évolue vite, et les enjeux sont internationaux.

Création de poèmes, d’images, de musique…, les usages créatifs de l’intelligence artificielle se sont démultipliés. Mais ces nouvelles IA génératives peuvent-elles nous aider à répondre aux défis plus graves de nos sociétés, en particulier le changement climatique et la santé ?

Cela fait longtemps que l’IA est identifiée comme un outil important dans la santé. Il y a vingt ans déjà, on l’utilisait pour identifier certaines lésions en radiologie. Ces dix dernières années, il y a eu beaucoup de travail, notamment au sein de Google, sur l’analyse d’images médicales par l’IA (mammographies, radios du poumon…). Au fil du temps, le nombre d’instruments médicaux augmente – microscope, IRM, scanner, aujourd’hui génomique -, fournissant une telle quantité de données que l’humain ne peut les analyser à l’œil nu. Or, la machine est douée pour identifier des motifs. Nous avons beaucoup travaillé ces dix dernières années sur la rétinopathie diabétique [NDLR : maladie de l’œil entraînée par le diabète de type 2]. Des IA effectuant des diagnostics sont désormais déployées dans différents pays, notamment des pays en développement qui manquent de professionnels de santé. Ici, l’utilité de l’IA est incontestable : lorsque le diagnostic est posé assez tôt, on peut empêcher les gens de devenir aveugles.

Au-delà de l’imagerie, quelles sont les applications médicales de l’IA les plus prometteuses selon vous ?

Plusieurs champs d’applications se distinguent. D’abord, la compréhension du patient, de ses conditions de vie. Les médecins aimeraient échanger plus avec eux pour mieux les soigner, mais ils manquent de temps. La recherche étudie la création d’agents conversationnels qui pourraient prémâcher une partie de ce travail. Il reviendrait bien sûr au médecin de valider ou de modifier le parcours de soins suggéré. L’IA peut aussi aider les professionnels de santé dans la prise de notes, l’administratif lié aux remboursements. Ensuite, la médecine progresse vite et constamment. Il importe de se tenir informé des dernières découvertes et de l’évolution des bonnes pratiques qu’elles entraînent, mais cela prend du temps.

L’IA pourrait aider à diffuser ce savoir. Elle pourrait enfin aider à découvrir de nouveaux médicaments. Ce processus est traditionnellement long et coûteux. L’intelligence artificielle peut aider à trier les candidats ayant la probabilité la plus élevée de fonctionner. AlphaFold, notre IA qui prédit la structure 3D des protéines, briques élémentaires de la vie, à partir de leur séquence d’acides aminés est une révolution à ce titre. Elle ne permet pas directement la découverte de médicaments, mais elle fournit une information clef pour l’accélérer. Auparavant, prédire la structure d’une protéine prenait souvent la durée d’une thèse ; AlphaFold a rendu cela très rapide. Depuis que nous l’avons conçue, elle a caractérisé en 3D 200 millions de protéines, soit presque toutes celles connues. Et tout cela a été mis à disposition des chercheurs du monde entier : plus de 1,5 million s’en servent aujourd’hui. Rien qu’en France, près de 800 articles de recherche citent AlphaFold, écrits par des chercheurs d’institutions françaises, comme le CNRS, l’Inserm, l’Institut Pasteur ou l’Inrae.

Quels obstacles techniques restent à lever pour que la prochaine version d’AlphaFold passe à l’étape supérieure, la découverte de médicaments ?

J’aime la science parce qu’elle nous garde humbles. Le monde demeure très compliqué à comprendre ! En biologie comme en science des matériaux, la validation expérimentale est indispensable. Une fois qu’on a une théorie, une simulation, il faut passer à l’expérimentation physique pour voir si ce qu’on a modélisé a vraiment pris en compte tous les paramètres de la réalité. L’IA aide à avoir moins de mauvais candidats, mais on ne peut pas s’affranchir de cette étape-là.

Le changement climatique est certainement le plus grand défi auquel l’humanité fait face aujourd’hui. L’IA peut-elle apporter une aide décisive dans ce domaine ?

Le climat est un parfait exemple de discipline complexe, avec d’immenses quantités de données, où l’IA peut vraiment aider. Au-delà de la pure science du climat et de ses grands modèles, l’IA peut agir de manière plus terre à terre en optimisant beaucoup de nos processus aux multiples paramètres afin de réaliser par exemple des économies d’énergie. Elles sont plus douées que nous dans ce domaine. Dans notre projet Sunroof, elles évaluent automatiquement à quel endroit il est pertinent de poser des panneaux photovoltaïques, en fonction de divers paramètres tels que l’inclinaison du toit ou les données météorologiques de la zone. Et ce n’est là qu’un exemple parmi tant d’autres. C’est tout l’intérêt de l’IA, dans le fond : nous permettre d’étudier rapidement tous les leviers à notre disposition et d’actionner les plus prometteurs à l’échelle planétaire.

Quels nouveaux pas vous attendez-vous à voir franchis en 2024 dans l’IA ?

Nos modèles, comme Gemini, deviennent de plus en plus multimodaux : ils sont capables de mettre des données de type différent (texte, audio, image…) en relation. On va aussi voir de nouveaux cas d’usage émerger par industries. Mais comme beaucoup de scientifiques qui évoluent dans la recherche fondamentale, j’aime être surprise. Il pourrait très bien y avoir des avancées scientifiques dans l’architecture des modèles ou l’entraînement qui ouvriraient de toutes nouvelles perspectives.

Leave a Reply

Your email address will not be published. Required fields are marked *