Le Réseau Neuronal A Appris à «animer» Des Portraits Basés Sur Une Seule Image Statique - Vue Alternative

Le Réseau Neuronal A Appris à «animer» Des Portraits Basés Sur Une Seule Image Statique - Vue Alternative
Le Réseau Neuronal A Appris à «animer» Des Portraits Basés Sur Une Seule Image Statique - Vue Alternative

Vidéo: Le Réseau Neuronal A Appris à «animer» Des Portraits Basés Sur Une Seule Image Statique - Vue Alternative

Vidéo: Le Réseau Neuronal A Appris à «animer» Des Portraits Basés Sur Une Seule Image Statique - Vue Alternative
Vidéo: 2.1 - Réseaux convolutifs (CNN) 2024, Mai
Anonim

Des spécialistes russes du Samsung AI Center-Moscow Center for Artificial Intelligence, en collaboration avec des ingénieurs de l'Institut des sciences et technologies de Skolkovo, ont développé un système capable de créer des images animées réalistes de visages humains à partir de quelques images humaines statiques. Habituellement, dans ce cas, l'utilisation de grandes bases de données d'images est requise, cependant, dans l'exemple présenté par les développeurs, le système a été formé pour créer une image animée d'un visage humain à partir de seulement huit images statiques, et dans certains cas, une seule suffisait. Pour plus de détails sur le développement, consultez un article publié sur le référentiel en ligne ArXiv.org.

Image
Image

En règle générale, il est assez difficile de reproduire un module personnalisé photoréaliste d'un visage humain en raison de la complexité photométrique, géométrique et cinématique élevée de la reproduction de la tête humaine. Cela s'explique non seulement par la complexité de la modélisation du visage dans son ensemble (pour cela, il existe un grand nombre d'approches de modélisation), mais aussi par la complexité de la modélisation de certaines caractéristiques: la cavité buccale, les cheveux, etc. Le deuxième facteur de complication est notre tendance à détecter des défauts même mineurs dans le modèle fini de têtes humaines. Cette faible tolérance aux erreurs de modélisation explique la prévalence actuelle des avatars non photoréalistes utilisés en téléconférence.

Selon les auteurs, le système, baptisé Fewshot learning, est capable de créer des modèles très réalistes de têtes parlantes de personnes et même de portraits. Les algorithmes synthétisent l'image de la tête de la même personne avec les lignes de référence du visage tirées d'un autre fragment de la vidéo, ou en utilisant les points de référence du visage d'une autre personne. En tant que source de matériel pour la formation du système, les développeurs ont utilisé une vaste base de données d'images vidéo de célébrités. Pour obtenir la tête parlante la plus précise possible, le système doit utiliser plus de 32 images.

Pour créer des images de visage animées plus réalistes, les développeurs ont utilisé des développements antérieurs dans la modélisation antagoniste générative (GAN, où un réseau de neurones réfléchit aux détails d'une image, devenant en fait un artiste), ainsi qu'une approche de méta-apprentissage automatique, où chaque élément du système est formé et conçu pour résoudre certains tâche spécifique.

Schéma de méta-apprentissage
Schéma de méta-apprentissage

Schéma de méta-apprentissage.

Image
Image
Image
Image

Vidéo promotionelle:

Trois réseaux de neurones ont été utilisés pour traiter les images statiques de la tête des gens et les transformer en images animées: Embedder (réseau d'implémentation), Generator (réseau de génération) et Discriminator (réseau discriminateur). Le premier partitionne les images de la tête (avec des repères faciaux approximatifs) en vecteurs d'incorporation, qui contiennent des informations indépendantes de la pose, le second réseau utilise les repères faciaux obtenus par le réseau d'enrobage et génère de nouvelles données basées sur eux à travers un ensemble de couches convolutives qui offrent une résistance aux changements d'échelle, aux déplacements, tours, changement d'angle et autres déformations de l'image du visage d'origine. Un discriminateur de réseau est utilisé pour évaluer la qualité et l'authenticité des deux autres réseaux. En conséquence, le système transforme les repères du visage d'une personne en photos personnalisées réalistes.

Image
Image
Image
Image

Les développeurs soulignent que leur système est capable d'initialiser les paramètres à la fois du réseau de générateurs et du réseau de discriminateurs individuellement pour chaque personne dans l'image, de sorte que le processus d'apprentissage peut être basé sur seulement quelques images, ce qui augmente sa vitesse, malgré la nécessité de sélectionner des dizaines de millions de paramètres.

Nikolay Khizhnyak

Recommandé: