Le Réseau Neuronal A Appris à Copier Presque Parfaitement La Voix Humaine - Vue Alternative

Table des matières:

Le Réseau Neuronal A Appris à Copier Presque Parfaitement La Voix Humaine - Vue Alternative
Le Réseau Neuronal A Appris à Copier Presque Parfaitement La Voix Humaine - Vue Alternative

Vidéo: Le Réseau Neuronal A Appris à Copier Presque Parfaitement La Voix Humaine - Vue Alternative

Vidéo: Le Réseau Neuronal A Appris à Copier Presque Parfaitement La Voix Humaine - Vue Alternative
Vidéo: Introduction aux mathématiques des réseaux de neurones 2024, Avril
Anonim

L'année dernière, la société de technologie d'intelligence artificielle DeepMind a partagé des détails sur son nouveau projet WaveNet, un réseau neuronal d'apprentissage en profondeur utilisé pour synthétiser la parole humaine réaliste. Récemment, une version améliorée de cette technologie a été publiée, qui sera utilisée comme base de l'assistant mobile numérique Google Assistant.

Un système de synthèse vocale (également connu sous le nom de fonction de synthèse vocale, TTS) est généralement construit autour de l'une des deux méthodes de base. La méthode concaténative (ou compilation) implique la construction de phrases en collectant des morceaux individuels de mots enregistrés et des parties préalablement enregistrées avec la participation d'un acteur vocal. Le principal inconvénient de cette méthode est la nécessité de remplacer constamment la bibliothèque de sons chaque fois que des mises à jour ou des modifications sont apportées.

Une autre méthode est appelée TTS paramétrique, et sa caractéristique est l'utilisation de jeux de paramètres avec lesquels l'ordinateur génère la phrase souhaitée. L'inconvénient de la méthode est que le plus souvent le résultat se manifeste sous la forme d'un son irréaliste ou dit robotique.

WaveNet, d'autre part, produit des ondes sonores à partir de zéro en utilisant un système de réseau neuronal convolutif où le son est généré en plusieurs couches. Premièrement, pour entraîner la plate-forme à la synthèse de la parole «en direct», elle est «alimentée» par une énorme quantité d'échantillons, tout en notant quels signaux sonores semblent réalistes et lesquels ne le sont pas. Cela donne au synthétiseur vocal la capacité de reproduire l'intonation naturaliste et même des détails tels que des claquements de lèvres. En fonction des échantillons de parole exécutés dans le système, cela lui permet de développer un «accent» unique, qui à long terme peut être utilisé pour créer de nombreuses voix différentes.

Sharp sur la langue

Peut-être que la plus grande limitation du système WaveNet était qu'il nécessitait une énorme quantité de puissance de calcul pour fonctionner, et même lorsque cette condition était remplie, sa vitesse ne différait pas. Par exemple, il a fallu environ 1 seconde pour générer 0,02 seconde de son.

Après un an de travail, les ingénieurs de DeepMind ont encore trouvé un moyen d'améliorer et d'optimiser le système afin qu'il soit désormais capable de produire un son brut d'une seconde en seulement 50 millisecondes, ce qui est 1000 fois plus rapide que ses capacités d'origine. De plus, les spécialistes ont réussi à augmenter le taux d'échantillonnage audio de 8 bits à 16 bits, ce qui a eu un effet positif sur les tests impliquant des auditeurs. Ces succès ont ouvert la voie à l'intégration de WaveNet dans des produits grand public tels que Google Assistant.

Vidéo promotionelle:

Actuellement, WaveNet peut être utilisé pour générer des voix anglaises et japonaises via Google Assistant et toutes les plates-formes qui utilisent cet assistant numérique. Étant donné que le système peut créer un type spécial de voix, en fonction de l'ensemble d'échantillons qui lui a été fourni pour la formation, dans un proche avenir, Google introduira très probablement la prise en charge de la synthèse de discours réalistes dans WaveNet dans d'autres langues, y compris en les prenant en compte. dialectes locaux.

Les interfaces vocales sont de plus en plus courantes sur une grande variété de plates-formes, mais leur nature non naturelle prononcée du son désactive de nombreux utilisateurs potentiels. Les efforts de DeepMind pour améliorer cette technologie contribueront certainement à l'adoption plus large de ces systèmes vocaux, ainsi qu'à améliorer l'expérience utilisateur de leur utilisation.

Des exemples de discours synthétisés en anglais et en japonais utilisant le réseau neuronal WaveNet peuvent être trouvés en suivant ce lien.

Nikolay Khizhnyak