Le terme deepfake est désormais bien connu du grand public. Il désigne les techniques permettant de créer des contenus audiovisuels truqués, en superposant des visages ou en modifiant des voix grâce à des algorithmes d’apprentissage profond (deep learning). Dans cet article, nous allons nous intéresser plus particulièrement au deepfake vocal, qui consiste à synthétiser une voix humaine pour qu’elle ressemble le plus possible à celle d’une personne réelle. En parallèle, nous aborderons également la question de la synchronisation labiale, ou Lipsync, qui vise à faire correspondre les mouvements des lèvres d’un personnage avec un son préenregistré.
Lipsync: qu’est-ce que c’est ?
Lipsync, contraction de « lip synchronization », est une technique utilisée depuis longtemps dans le domaine de l’animation, du cinéma et de la télévision. Elle consiste à synchroniser les mouvements des lèvres d’un personnage avec un son préenregistré, généralement une voix parlée ou chantée. Cette technique est notamment utilisée pour doubler les films et séries étrangers dans une autre langue, ou encore pour animer des personnages en 2D ou 3D.
Jusqu’à récemment, la synchronisation labiale était réalisée manuellement par des animateurs qui devaient ajuster minutieusement chaque image pour faire correspondre les mouvements des lèvres aux sons émis. Ce processus pouvait être long et fastidieux, mais il a été considérablement simplifié grâce à l’essor de l’intelligence artificielle.
L’intelligence artificielle au service du lipsync… et du deepfake
Avec le développement rapide de l’intelligence artificielle et du deep learning, plusieurs outils ont vu le jour permettant d’automatiser la synchronisation labiale. Parmi eux, on peut citer Wav2lip et Lalamu, qui reposent sur des algorithmes capables d’apprendre à reproduire les mouvements naturels des lèvres humaines en fonction du son associé.
Wav2lip : un outil prometteur basé sur le deep learning
Wav2lip est un outil développé par une équipe de chercheurs indiens qui utilise le deep learning pour générer automatiquement une vidéo Lipsync à partir d’une vidéo source et d’un fichier audio. Il s’appuie sur un réseau de neurones convolutif pour apprendre à reproduire les mouvements des lèvres humaines en fonction du son associé.
L’un des principaux avantages de Wav2lip est sa capacité à produire des résultats très réalistes, même lorsque la qualité du fichier audio n’est pas optimale. De plus, il est capable de s’adapter à différents styles d’animation et peut être utilisé aussi bien pour animer des personnages 3D que pour synchroniser les lèvres d’acteurs réels dans une vidéo.
Lalamu : un outil open-source pour automatiser le Lipsync
Lalamu est un autre outil basé sur l’intelligence artificielle qui permet d’automatiser la synchronisation labiale. Contrairement à Wav2lip, Lalamu est open-source et peut donc être utilisé gratuitement par quiconque souhaite expérimenter avec cette technologie.
Comme Wav2lip, Lalamu repose sur un réseau de neurones convolutif pour apprendre à reproduire les mouvements naturels des lèvres humaines en fonction du son associé. Il offre également une interface utilisateur simple et intuitive, ce qui facilite grandement son utilisation même pour les personnes peu familières avec ce type d’outil.
Deepfake vocal : exemples de vidéos réalisées avec Wav2lip et Lalamu
Les outils basés sur l’intelligence artificielle tels que Wav2lip et Lalamu ont déjà été utilisés pour réaliser plusieurs vidéos impressionnantes montrant leur potentiel en matière de Lipsync automatique. Voici quelques exemples :
- Le discours de Barack Obama : une vidéo réalisée avec Wav2lip montre l’ancien président des États-Unis prononcer un discours fictif, avec une synchronisation labiale extrêmement réaliste.
- L’animation 3D d’un personnage de jeu vidéo : Lalamu a été utilisé pour animer les lèvres d’un personnage de jeu vidéo en fonction d’une voix préenregistrée, donnant ainsi vie au personnage et rendant les dialogues plus immersifs.
- Le doublage d’une scène de film étranger : dans cet exemple, Wav2lip a permis de synchroniser les mouvements des lèvres des acteurs avec la voix du doubleur dans la langue cible, offrant ainsi une expérience plus fluide et naturelle pour le spectateur.
Ci-dessous une vidéo expliquant comment vous aussi, vous pouvez facilement créer un deepfake vocal en suivant le tutoriel :
Risques et dérives : une technologie trop puissante pour de mauvaises mains ?
Cette technologie soulève cependant certaines préoccupations éthiques. En effet, elle pourrait être utilisée à mauvais escient pour tromper ou manipuler les gens en faisant dire à quelqu’un quelque chose qu’il n’a jamais dit. Les conséquences potentielles sont énormes, notamment de fausses déclarations politiques, la diffamation en ligne et la falsification des preuves juridiques.
Face à ces risques potentiels, il devient important de développer des outils pour détecter les fausses voix et la synchronisation labiale. Plusieurs entreprises et chercheurs travaillent sur ce problème pour développer des solutions capables d’identifier les contenus altérés et d’empêcher leur propagation.
En somme, le deepfake vocal et la synchronisation labiale automatique, grâce à des outils basés sur l’intelligence artificielle tels que Wav2lip et Lalamu, ouvrent la porte à de nouvelles possibilités dans le monde de l’audiovisuel. Que ce soit pour doubler des films étrangers, animer des personnages virtuels ou créer des contenus truqués à des fins humoristiques ou satiriques, ces technologies promettent de révolutionner notre manière d’interagir avec les médias audiovisuels. Toutefois, il convient également d’être vigilant quant aux dérives potentielles, notamment en matière de désinformation et d’atteinte à la vie privée.