Le Réseau Neuronal A Entendu La Voix Des Gens Et A Dessiné Leurs Portraits - Vue Alternative

Table des matières:

Le Réseau Neuronal A Entendu La Voix Des Gens Et A Dessiné Leurs Portraits - Vue Alternative
Le Réseau Neuronal A Entendu La Voix Des Gens Et A Dessiné Leurs Portraits - Vue Alternative

Vidéo: Le Réseau Neuronal A Entendu La Voix Des Gens Et A Dessiné Leurs Portraits - Vue Alternative

Vidéo: Le Réseau Neuronal A Entendu La Voix Des Gens Et A Dessiné Leurs Portraits - Vue Alternative
Vidéo: La prochaine révolution de l'Intelligence artificielle - Yann LeCun, à l'USI 2024, Mai
Anonim

Récemment, les réseaux de neurones ont été surprenants par leurs compétences - auriez-vous pu croire il y a dix ans qu'un ordinateur pouvait «animer» les portraits de Dostoïevski et Marilyn Monroe? Préparez-vous à être étonné davantage, car des chercheurs du MIT ont créé un réseau de neurones Speech2Face capable de dessiner des portraits de personnes simplement en écoutant leur voix. La technologie est loin d'être idéale, mais sa capacité à déterminer le sexe, la nationalité et l'âge d'une personne est impressionnante.

Pour former le réseau neuronal, le kit AVSpeech a été utilisé avec un million de courtes vidéos avec des milliers de personnes qui parlent. Les pistes avec vidéo et son sont séparées, de sorte que le système a pu étudier chaque type de matériel avec autant de détails que possible. Lors de la première étape du travail, l'algorithme VGG-Face a étudié des fragments vidéo et créé des portraits des personnes sur eux dans des expressions faciales neutres et de plein visage. Une autre partie de l'algorithme a étudié le spectrogramme de la voix et appliqué des modifications supplémentaires aux portraits résultants - en conséquence, un portrait approximatif de chaque personne parlant a été obtenu.

Un réseau de neurones pour créer des portraits vocaux est déjà une réalité

Si vous comparez le visage d'une personne avec une vidéo et l'option proposée par l'algorithme, vous pouvez trouver de nombreuses différences. Cependant, les chercheurs assurent qu'ils ne voulaient pas au départ créer le portrait le plus similaire d'une personne - de nombreux facteurs affectent le ton et l'intonation de la voix humaine, de sorte qu'ils n'auraient pas obtenu le résultat idéal de toute façon. Mais le réseau de neurones fait un excellent travail sur ce qui est important pour les chercheurs, à savoir la détermination précise du sexe, de la nationalité et de l'âge.

Image
Image

Les auteurs des travaux ont noté que pour le moment, l'algorithme est faible pour déterminer l'âge, mais qu'ils peuvent améliorer la précision. Il a également été constaté que l'algorithme recrée mieux les visages européens et asiatiques, mais cela est uniquement dû au fait que les vidéos de formation avaient un nombre inégal de visages de nationalités différentes.

Vidéo promotionelle:

Pourquoi avez-vous besoin d'un réseau neuronal?

Comment cette technologie peut-elle être utile à l'avenir? Alternativement, avec l'aide de celui-ci, un service peut un jour être créé où l'avatar virtuel d'un utilisateur est créé automatiquement, en fonction de sa voix. La nouvelle étude présente également de grands avantages scientifiques - en étudiant les données, les scientifiques peuvent trouver la relation entre l'apparence d'une personne et sa voix. Vous pouvez écouter des voix et regarder des portraits recréés sur leur base sur le site Web du projet.

Ramis Ganiev

Recommandé: