“Voice Engine” : le nouvel outil d’OpenAI pour cloner une voix en 15 secondes

“Voice Engine” : le nouvel outil d’OpenAI pour cloner une voix en 15 secondes

“Voice Engine” : c’est le nom du nouveau logiciel présenté vendredi 29 mars par OpenAI, le géant de l’intelligence artificielle (IA) générative, et éditeur de ChatGPT. Cet outil permet de cloner une voix à partir d’un échantillon audio de 15 secondes, et de lui faire interpréter un texte, selon un communiqué d’OpenAI sur les résultats d’un test à petite échelle. La marque a diffusé de premiers échantillons dans lesquels il est très difficile de différencier la voix générée par l’IA de celle de référence.

“Voice Engine” peut aussi bien lire un texte dans la langue du locuteur que dans une autre. Mais la sortie de ce nouveau logiciel soulève de nombreuses questions en matière de sécurité et d’éthique. Usages à visée frauduleuse, risques de plagiat d’artistes, diffusions de fausses informations… OpenAI a annoncé que l’utilisation de “Voice Engine” sera restreinte, pour empêcher des fraudes ou des crimes comme l’usurpation d’identité.

🚨 BREAKING NEWS 🚨
OpenAI Unveils Revolutionary Voice Engine: Synthesizing Natural-Sounding Speech with Just a Text Input and 15-Second Audio Sample!!
pic.twitter.com/ITgX3IRUpz

— Messiya (@MessiyaAI) March 30, 2024

Pour quelles utilisations ?

La société assure adopter “une approche prudente et informée” avant une diffusion plus large du nouvel outil, “en raison du potentiel d’utilisation abusive des voix synthétiques”. OpenAI travaillerait ainsi “avec des partenaires américains et internationaux issus du gouvernement, des médias, du divertissement, de l’éducation, de la société civile et d’autres secteurs”. “Nous prenons en compte leurs commentaires au fur et à mesure que nous développons l’outil”, a déclaré l’éditeur.

Pour l’instant, seule une dizaine de développeurs ont accès à cette technologie, parmi lesquels ” la société de technologie éducative Age of Learning, la plateforme de narration visuelle HeyGen, le fabricant de logiciels de santé Dimagi, le créateur d’applications de communication par IA Livox et le système de santé Lifespan”, indique le site spécialisé The Verge. Dans l’exemple diffusé plus haut, on peut entendre une utilisation par Age of Learning de l’outil de lecture de texte pour formuler un contenu éducatif ou des réponses à des questions d’étudiants.

Gage de traçabilité

OpenAI a précisé que les partenaires qui testent “Voice Engine” ont accepté des règles exigeant notamment le consentement explicite et informé de toute personne dont la voix est dupliquée, et la transparence pour les auditeurs : ils doivent savoir clairement que les voix qu’ils entendent sont générées par l’IA. “Nous avons mis en place un ensemble de mesures de sécurité, y compris une marque en filigrane pour pouvoir retracer l’origine de tout son généré par Voice Engine, ainsi qu’un contrôle proactif de son utilisation”, a insisté l’entreprise.

En octobre dernier, la Maison Blanche avait dévoilé des règles et principes pour encadrer le développement de l’IA, dont celui de la transparence. Joe Biden s’était ému à l’idée que des criminels s’en servent pour piéger des personnes en se faisant passer pour des membres de leur famille. OpenAI a également suggéré plusieurs mesures qui pourraient limiter les risques liés à des outils de ce type : une législation visant à protéger l’utilisation de la voix des personnes à travers les IA, une meilleure formation à la reconnaissance de contenus générés par ces technologies, notamment les deepfakes, et le développement de systèmes de traçabilité de ces créations.

Crainte autour de l’année électorale

Ces mesures de précautions sont en effet mises en avant alors que les chercheurs en désinformation craignent une utilisation abusive des applications d’IA générative (production automatisée de textes, images, etc), et notamment des outils de clonage de voix, alors que le monde connaît cette année plusieurs élections cruciales. “Nous reconnaissons que la capacité de générer des voix ressemblant à celles de personnes comporte de sérieux risques, qui sont particulièrement importants en cette année électorale”, a convenu la société basée à San Francisco.

Récemment, un rival de Joe Biden à la primaire démocrate a par exemple mis au point un programme automatisé qui usurpait l’identité du président américain, en campagne pour sa réélection. La voix imitant celle de Joe Biden appelait des électeurs pour les inciter à s’abstenir lors de la primaire du New Hampshire. Les Etats-Unis ont depuis interdit les appels par des voix clonées, générées par de l’IA, afin de lutter contre les arnaques politiques ou commerciales.

OpenAI n’est pas le seul éditeur à s’intéresser au domaine de la création de textes audio via les intelligences artificielles. Podcastle ou ElevenLabs ont eux aussi développé des techniques de clonage de voix. Mais au vu des problématiques soulevées par la génération de voix humaines, la plupart des développeurs se concentrent plutôt sur la conception de sons instrumentaux ou naturels.

Leave a Reply

Your email address will not be published. Required fields are marked *