La synthèse vocale, de plus en plus réaliste

Depuis sa création en 1977, l’Ircam suscite une fertilité féconde entre recherche scientifique, création artistique et développement technologique. Véritable pont entre l’état de l’art de la recherche audio et le monde industriel au niveau mondial, Ircam Amplify participe à la révolution du son au 21ème siècle et permet à l’institut de valoriser ses travaux auprès du grand public. À l’heure de l’IA, du deep learning et des assistants vocaux, l’Ircam se place comme un pionnier en matière de voix de synthèse. Le fruit de cette recherche permet aujourd’hui d’humaniser des voix en y insufflant de l’émotion, de la singularité et de la finesse. Que ce soit à destination du compositeur ou pour la création d’interfaces enrichies et multisensorielles entre les hommes et les machines, les usages sont légion.

Le risque des deep fakes

Face Swap, FaceApp, Reface, etc. De nombreuses applications de deep fake permettent d’incruster tous types de visages sur des GIFs avec une précision déroutante. Si ces trucages numériques basés sur l’intelligence artificielle bouleversent déjà l’image, ils s’attaquent également à la voix avec un réalisme grandissant. Pour Frederic Amadu, CTO d’Ircam Amplify, “La voix prend une importance de plus en plus forte. Les vidéos sur les réseaux, les podcast ou la musique en témoignent. Le faux peut vite prendre place. À Ircam Amplify, on se questionne autant sur ces risques que sur des solutions positives et inspirantes.”

L’Ircam à la pointe de la synthèse vocale

Nicolas Obin, chercheur dans l’équipe analyse et synthèse du son du laboratoire Sciences et Technologies de la Musique et du Son (Ircam, CNRS, Sorbonne Université), travaille sur la synthèse vocale depuis une dizaine d’années. L’institut se détache des autres acteurs de façon spectaculaire, pourquoi ? Car contrairement aux assistants dont les voix sont neutres et normées, l’Ircam se base sur des recherches orientées vers l’expressivité et la prosodie : c’est-à-dire la capacité à exprimer par le son des caractéristiques qui échappent au simple langage formulé, tels que les émotions.

Des innovations technologiques uniques

L’Ircam développe des algorithmes et des logiciels de transformation vocale : on sait sculpter la voix, en modifier les attributs comme l’âge, le genre ou la variabilité liée à l’émotion. À titre d’exemple, Nicolas Obin et son équipe ont recréé la voix du castrat Farinelli, dont il n’existait aucun enregistrement (Gérard Corbiau, Farinelli, 2008). Plus récemment ont été recréées les voix de Marilyn Monroe (Philippe Parreno, Marilyn, 2012), du Maréchal Pétain (Philippe Saada, Juger Pétain, 2012) et de Louis de Funès (Jamel Debbouze, Pourquoi j’ai pas mangé mon père, 2015).

Ircam Amplify, passerelle vers les usages sonores

Ircam Amplify prolonge le travail de l’Ircam autour de la voix de manière plurielle. Citons l’application Vocal’iz, développée par la MGEN. Celle-ci s’appuie sur une technologie issue de l’Ircam, permettant d’extraire des attributs de la voix, telle que l’expressivité, la monotonie et le débit syllabique. Elle analyse les informations fréquentielles de l’utilisateur, puis propose des conseils et des exercices pratiques pour en prendre soin au quotidien. Selon Frederic Amadu, “Cette technologie permet de caractériser un discours, identifier des émotions comme le stress, la peur et le plaisir. Nous sommes capables de montrer directement sur la forme d’onde l’endroit où il y a une hésitation dans la voix.”

Bientôt un « antivirus » à deep fakes ?

Mais ces solutions peuvent-elles permettre de repérer des deep fakes pour mieux s’en prémunir ? Pour Frederic Amadu, c’est une évidence : “Nos technologies portent et repèrent les émotions, car elles ne passent pas par une simple transcription du texte. Elles seraient beaucoup plus difficiles à déceler. Pour y remédier, nous travaillons au développement d’une application dans la lignée de Shazam, qui pourra repérer si les voix sont vraies ou fausses.” Et ainsi apporter des solutions positives et pertinentes, autant qu’ériger des gardes-fous contre les utilisations malveillantes.

Vous souhaitez en savoir plus sur les pouvoirs de la voix ?

Participez au Forum pour les Pouvoirs du Son dans l’Industrie, le 20 janvier 2022 de 14h à 18h, en streaming et en direct de l’Ircam, afin de mieux appréhender les nouveaux usages de l’audio au service d’un monde partagé.

Programme complet disponible dès maintenant !