HeyGen : l'incroyable IA vidéo qui vous fait parler dans d'autres langues

HeyGen : l'incroyable IA vidéo qui vous fait parler dans d'autres langues

La startup HeyGen vient de lancer un service d'IA qui permet de doubler des vidéos en plusieurs langues. Cerise sur le gâteau : le mouvement des lèvres s'adapte à la prononciation du texte traduit. Le résultat est totalement bluffant !

Aujourd'hui, nous avons accès à du contenu provenant du monde entier. C'est très enrichissant, mais on peut parfois éprouver des difficultés à comprendre ce qui est dit dans une langue étrangère. Dans ce cas, il y a généralement deux solutions : l'utilisation de sous-titres, ce qui peut casser l'immersion et se révéler fatigant à suivre à la longue, ou le doublage, qui n'est pas accessible à tous les budgets et peut parfois se révéler laborieux. YouTube s'est déjà penché sur le problème et propose depuis peu, de façon très restreinte, un nouvel outil permettant de traduire et de doubler les vidéos dans plusieurs langues grâce à une IA (voir notre article).

Deux anciens de TikTok se sont également penchés sur la question avec HeyGen, un programme de création de vidéos capable de générer un avatar d'une personne – une sorte de présentateur. Ils viennent tout juste de lui rajouter, en version bêta, une fonction nommée Video Translate. Celle-ci permet de doubler une vidéo dans une autre langue, en superposant une autre bouche sur l'image pour donner l'impression que la personne parle vraiment la langue choisie – c'est de la synchronisation labiale. Et le résultat est vraiment bluffant !

HeyGen : une synchronisation labiale étonnante

La magie opère en trois étapes, comme l'explique Claire Larsonneur, linguiste maîtresse de conférences à l'université de Paris VIII, à 20 Minutes. D'abord, il y a la traduction d'une langue à une autre grâce à un moteur entraîné sur un corpus, un peu comme ce que l'on trouve chez DeepL ou Google Translate. Ensuite, il y a une transcription voix-texte puis texte-voix afin d'oraliser la traduction – un peu comme avec Apple Translate. Enfin, l'IA pioche dans une banque de données qui associe le son au mouvement des lèvres dans plusieurs langues afin d'obtenir un rendu qui correspond à ce qui est prononcé dans la langue d'arrivée.

Expliqué comme ça, cela ne semble pas si incroyable que ça. Mais la nouveauté avec HeyGen vient du fait qu'il combine de nombreux outils qui existaient déjà séparément : traduire un texte, faire dire à quelqu'un des propos qu'il n'a jamais tenus en conservant sa voix – c'est le concept des deepfakes – et transformer le mouvement d'une partie du corps – en l’occurrence, les lèvres. Notons cependant que, comme tout ce qui touche à l'IA, la technologie de l'entreprise "a une empreinte carbone démentielle" et "est très coûteux en énergie, en bande passante et en stockage", alerte Claire Larsonneur.

HeyGen : une mauvaise nouvelle pour les doubleurs de voix

Pour le moment, HeyGen prend en charge l'anglais (américain et britannique), l'espagnol, le français, l'hindi, l'italien, l'allemand, le polonais et le portugais. La technologie est très simple d'utilisation, puisqu'il suffit d'importer une vidéo avec une personne en train de parler de trente secondes à cinq minutes sur la plateforme, de choisir la langue d'arrivée, et le tour est joué ! L'enregistrement doit être au format mp4, QuickTime ou WebM, et ne doit pas dépasser 500 Mo. Sur les réseaux sociaux, de nombreux internautes se sont amusés à faire parler Lionel Messi – connu pour parler exclusivement espagnol – dans un anglais parfait, à faire tenir des discours à Donald Trump et Elon Musk en français, ou encore à faire passer le vénérable général de Gaulle de l'italien à l'hindi au portugais, le tout avec une facilité déconcertante. Il est possible d'utiliser HeyGen gratuitement, mais l'entreprise propose également des forfaits payants pour les entreprises et autres professionnels.

À première vue, une telle technologie paraît plus que bienvenue. Elle permet d'éviter des heures de tournage – et les dépenses qui vont avec – et de toucher une audience internationale. Elle devrait notamment intéresser les entreprises, qui voudraient communiquer avec des clients ou des actionnaires du monde entier. Toutefois, tout le monde ne voit pas la chose d'un bon œil, à commencer par les comédiens de doublage. Ils ont été parmi les premiers à faire grève à Hollywood pour dénoncer l'usage de l'IA dans l'industrie du cinéma. En effet, plusieurs films utilisent déjà une version plus avancée de cette technologie pour le doublage au cinéma sans passer par des acteurs. Cet été, une vingtaine de syndicats et d'organisations syndicales d'Europe, des États-Unis et d'Amérique latine ont créé l'United voices organisation (UVO), qui milite sous le slogan "ne volez pas nos voix" afin de mettre en place une législation pour réguler l'IA et pérenniser la création humaine. Et c'est sans compter sur les risques de désinformation, car la simplicité d'utilisation de cette technologie et le fait qu'elle soit capable de créer des personnages virtuels plus vrais que nature permettent de faire dire à qui l'on veut n'importe quoi.