OpenAI dévoile un modèle d’IA de clonage vocal, mais réservé à des partenaires sélectionnés

Kamleu Noumi Emeric 30 mars 2024 Intelligence Artificielle, Technologies 1 commentaire 1,812 Vues

Le leader de l’IA, OpenAI, a surpris le monde en annonçant la sortie de son tout nouveau modèle, « Voice Engine », qui est conçu pour cloner des voix humaines. Cette technologie s’ajoute aux autres innovations d’OpenAI, telles que les modèles d’IA pour la génération de texte, l’imagerie et la vidéo.

Avec Voice Engine, OpenAI s’aventure sur le terrain de l’audio, offrant des possibilités encore plus vastes pour les médias numériques. La société explique que ce projet est en développement depuis 2022 et qu’il alimente déjà l’API de synthèse vocale d’OpenAI ainsi que les nouvelles fonctionnalités de chat vocal et lecture de texte, récemment dévoilées.

Mais ce modèle ne se contente pas de fournir une synthèse vocale, il est également capable de cloner une voix humaine avec une précision impressionnante. Le processus est simple : un locuteur humain enregistre un court extrait de sa voix, d’une durée de 15 secondes, à l’aide d’un microphone de téléphone ou d’ordinateur. Le moteur vocal d’OpenAI analyse cet enregistrement et utilise son IA pour générer une « voix naturelle qui ressemble beaucoup au locuteur original ». Cette voix clonée peut alors être utilisée pour prononcer n’importe quel texte tapé par un utilisateur humain.

Cette technologie a des implications énormes pour le marché de l’audio vocal. Les professionnels tels que les podcasters, les artistes de la voix off, les joueurs, les agents du service clientèle et bien d’autres encore pourront tirer parti de cette innovation pour créer des contenus plus personnalisés et engageants. De plus, cette technologie met en concurrence d’autres entreprises qui se consacrent au clonage de voix, telles que ElevenLabs, Captions, Meta et WellSaid Labs.

OpenAI se positionne en leader du marché avec cette nouvelle avancée. Outre son utilisation pour les professionnels de l’audio, Voice Engine offre également des avantages pour les personnes ayant des difficultés verbales. En fournissant des voix uniques et non robotiques, cette technologie peut être utilisée dans des programmes thérapeutiques et éducatifs pour les personnes souffrant de troubles de la parole ou ayant des besoins en matière d’apprentissage.

Vous pouvez tester le résultat du clonage de la voix sur cette page : Voice Engine

Le (1) représente l’audio de référence qu’il va utiliser pour le clonage vocal. Le (2) représente la voix générée par clonage vocal tout en lisant le texte (3).

OpenAI a décidé de limiter l’utilisation de cette technologie pour le moment. Seuls quelques partenaires de confiance ont accès à Voice Engine, tels que Age of Learning, qui l’utilise pour développer des outils d’aide à la lecture, ou encore HeyGen, qui l’utilise pour traduire des vidéos en plusieurs langues avec un accent authentique. Le Norman Prince Neurosciences Institute at Lifespan, une organisation médicale et d’enseignement à but non lucratif, a également eu accès à la technologie. Deux médecins ont réussi à rétablir la parole d’une patiente atteinte d’une tumeur cérébrale en utilisant Voice Engine et un échantillon audio provenant d’une de ses vidéos de projet scolaire.

Cependant, OpenAI reste prudente quant à une diffusion plus large de cette technologie, en raison du potentiel d’utilisation abusive. L’entreprise souhaite entamer un dialogue sur le déploiement responsable des voix synthétiques. Les partenaires et utilisateurs de Voice Engine sont strictement liés par des politiques d’utilisation qui interdisent toute usurpation d’identité et exigent le consentement éclairé des donneurs de voix. En outre, OpenAI a mis en place des mesures de sécurité telles que le filigrane et la surveillance proactive pour garantir une utilisation responsable de la technologie.

Avec Voice Engine, OpenAI continue de repousser les limites de l’IA et offre de nouvelles possibilités passionnantes pour les applications vocales. Cette avancée aura sans aucun doute un impact important sur les médias numériques et permettra à chacun de donner une voix unique à ses créations.