Intelligence artificielle: L’IA prête à parler à votre place

Publié

Intelligence artificielleL’IA prête à parler à votre place

Microsoft a développé VALL-E, un nouveau modèle de synthèse vocale capable de simuler la voix de n’importe qui.

Après les modèles Dall-E et autre ChatGPT, c’est au tour du modèle d’intelligence artificielle VALL-E de se faire un nom.

Après les modèles Dall-E et autre ChatGPT, c’est au tour du modèle d’intelligence artificielle VALL-E de se faire un nom.

stablediffusion/20min

Les chercheurs de Microsoft ont annoncé VALL-E, un nouveau modèle d’intelligence artificielle (IA) capable de simuler la voix d’une personne lorsqu’on lui donne un échantillon audio de seulement trois secondes. Sur la plateforme Github, Microsoft fournit des dizaines d’exemples audio du modèle d’IA en action. L’IA est même capable de jouer les états d’âme de l’orateur et de répliquer l’environnement acoustique, par exemple s’il s’agit d’un appel téléphonique.

Parmi les échantillons, le «Speaker Prompt» est l’audio de trois secondes fourni à VALL-E à des fins d’imitation.

Parmi les échantillons, le «Speaker Prompt» est l’audio de trois secondes fourni à VALL-E à des fins d’imitation.

github/microsoft

Avec l’aide de Meta

Pour que VALL-E génère un bon résultat, l’échantillon de trois secondes doit cependant correspondre étroitement à une voix qui a servi à alimenter l’apprentissage des algorithmes. Il y en a déjà un certain nombre, puisque Microsoft a puisé dans une bibliothèque audio constituée par Meta (ex-Facebook). Appelée LibriLight, elle contient quelque 60’000 heures de discours en anglais de plus de 7000 locuteurs, principalement tirés de plateforme de livres audio LibriVox appartenant au domaine public. Pour former VALL-E, Microsoft s’est aussi tourné vers Meta et sa technologie de compression des fichiers audio appelée EnCodec et annoncée en octobre 2022.

Garde-fou

Contrairement au cas de Dall-E, le modèle capable de générer des images à partir d’invites textuelles d’OpenAI, les chercheurs de Microsoft n’ont pas rendu public le code de VALL-E en raison de risques marqués d’utilisation abusive «tels que l’usurpation d’identification vocale ou l’usurpation d’identité d’un locuteur spécifique». Ils expliquent également qu’il est possible «de construire un modèle de détection pour reconnaître si un clip audio a été synthétisé par VALL-E» et assurent respecter les règles éthiques adoptées par la firme en matière d’intelligence artificielle.

Microsoft ambitieux

À l’image du générateur de texte ChatGPT, que Microsoft prévoit d’intégrer dans son moteur de recherche Bing, les outils de génération de contenus automatisés ont affiché des progrès notoires ces derniers mois. Microsoft est bien placé et souhaiterait investir 10 milliards de dollars dans OpenAI selon Semafor, ce qui valoriserait la firme californienne cofondée par Elon Musk à 29 milliards de dollars.

(laf)

Ton opinion

11 commentaires