Etats-Unis

12 juillet 2017 21:07; Act: 13.07.2017 07:34 Print

Vidéos extrapolées à partir d'interviews audio

Des chercheurs ont développé des algorithmes capables de faire coller des mots aux lèvres d'un orateur et de faire comme s'il avait été filmé en direct.

Sur ce sujet
Une faute?

Des chercheurs de l'Université de Washington ont présenté une vidéo très réaliste de l'ancien président américain Barack Obama s’exprimant sur des thèmes d’actualité. Pour la créer, ils se sont appuyés uniquement sur des archives sonores et vidéos. «Ce type de résultats n'avait jamais été dévoilé», s’est félicitée Ira Kemelmacher-Shlizerman, professeure adjointe.

Des lèvres synchronisées

Pour synchroniser les lèvres de l'orateur avec le texte, le système convertit des fichiers audio d'un individu en formes de bouches réalistes. Celles-ci sont ensuite greffées et mélangées avec le visage de cette personne à partir d'une autre vidéo existante. «Les gens sont particulièrement sensibles à toutes les régions de votre bouche qui ne semblent pas réalistes», a déclaré Supasorn Suwajanakorn, auteur principal de l'étude. «Si vous ne faites correctement les dents ou si le menton bouge au mauvais moment, les gens peuvent le repérer tout de suite et ça va sonner faux. Donc vous devez rendre la zone de la bouche parfaite pour aller au-delà de la vallée de l'étrange».

Pour leurs tests, les scientifiques ont choisi Barack Obama dont les heures de vidéos enregistrées durant son mandat présidentiel ont permis de satisfaire l’appétit de l'apprentissage automatique par la machine (machine learning).
Techniquement, un réseau neuronal conver
tit d'abord les sons d'un fichier audio sous la forme de bouches basiques. Ensuite, le système greffe et mélange toutes ces formes de bouches sur une vidéo cible existante et ajuste le timing pour créer une nouvelle vidéo réaliste dont les propos sont synchronisés aux lèvres de l'orateur.

Skype bénéficiaire?

Comme débouchés pratiques, la professeure Ira Kemelmacher-Shlizerman cite l'amélioration de la qualité des vidéoconférences pour les réunions et des entretiens vidéo créés à posteriori avec une figure historique à partir d'une archive audio. La technologie pourrait permettre également d'assurer des conversations vidéo en ligne de bonne qualité. «Lorsque vous regardez Skype ou Google Hangouts, souvent la connexion est instable et en basse résolution. C’est vraiment désagréable alors qu’en même temps l'audio est très bon, a Steve Seitz, co-auteur de l'étude. Donc, si vous pouviez utiliser l'audio pour produire une vidéo de beaucoup plus haute qualité, ce serait formidable.»

Limites éthiques

En inversant le processus, c'est-à-dire en injectant d'abord la vidéo en lieu et place de la simple bande sonore, l'équipe dit être capable de développer des algorithmes qui pourraient détecter si une vidéo est bien réelle ou trafiquée. «Vous ne pouvez pas simplement prendre la voix de quelqu'un et le transformer en une vidéo d'Obama, a cependant précisé Steve Seitz. Nous avons très consciemment décidé de ne pas aller dans la voie de mettre les mots de quelqu'un dans la bouche d'un autre. Nous prenons simplement des propos réels pour les intégrer dans une vidéo réaliste». La société canadienne Eerie avait récemment fait la démonstration de son service Lyrebird capable d’imiter une voix à partir d’un simple échantillon audio de moins d’une minute.

Les travaux des scientifiques ont été financés par Samsung, Google, Facebook, Intel et le laboratoire Animation Research de l'Université de Washington.

(laf)