Le Réseau Neuronal A Appris à Générer Des Vidéos En Se Basant Sur La Description De - Vue Alternative

Le Réseau Neuronal A Appris à Générer Des Vidéos En Se Basant Sur La Description De - Vue Alternative
Le Réseau Neuronal A Appris à Générer Des Vidéos En Se Basant Sur La Description De - Vue Alternative

Vidéo: Le Réseau Neuronal A Appris à Générer Des Vidéos En Se Basant Sur La Description De - Vue Alternative

Vidéo: Le Réseau Neuronal A Appris à Générer Des Vidéos En Se Basant Sur La Description De - Vue Alternative
Vidéo: La reconnaissance d’image par réseau de neurones (Walid Chergui) 2024, Septembre
Anonim

L'intelligence artificielle crée des vidéos scénarisées - jusqu'à présent courtes et floues, mais un jour, elle remplacera à elle seule tout un studio de cinéma.

Les réseaux de neurones sont déjà assez bons (et dans de nombreux cas meilleurs que les humains) pour reconnaître les modèles dans une image et sont capables de décrire en termes généraux des scènes entières. Les réseaux de neurones génératifs effectuent la transformation inverse et peuvent former une image en fonction de sa description, ou prédire la trame suivante en fonction des précédentes.

Les développeurs belges sont allés encore plus loin, combinant ces capacités dans un système unique qui crée des vidéos «à partir de rien», basées sur leur propre expérience de l'apprentissage automatique et du texte de script. Tinne Tuytelaars en a parlé lors d'une réunion de l'Association pour l'avancement de l'intelligence artificielle (AAAI) qui s'est tenue aux États-Unis.

Le réseau de neurones fonctionne en deux étapes - selon Tinne, comme s'il imitait le processus créatif d'une personne: à la première étape, un "croquis" flou et approximatif de chaque image est formé, après quoi des détails sont spécifiés et ajoutés. L'une des parties importantes d'un tel système est le réseau de neurones discriminateur, qui compare le résultat avec des vidéos «réelles» adaptées à un scénario donné, et vous permet d'évaluer sa qualité, améliorant le travail de la partie générative du système.

Le réseau de neurones a été formé sur 10 scènes ("jouer au golf sur l'herbe", "kitesurf dans la mer", etc.) et a appris à séparer les actions et les circonstances les unes des autres, et pouvait également les combiner de quelque manière que ce soit, en créant des vidéos, par exemple "Golf dans la piscine":

Image
Image

ou "naviguer dans la neige":

Image
Image

Vidéo promotionelle:

Bien entendu, la qualité de telles animations est encore loin d'être acceptable: les "vidéos" d'une durée d'environ une seconde ne sont constituées que de 32 images avec des dimensions de 64x64 pixels.

Mais avec la même confiance, il est possible de garantir que ces chiffres s'amélioreront rapidement, car il n'y a pas si longtemps, le cinéma lui-même ne pouvait se vanter que d'une image boueuse, tremblante et stupide. Si un tel réseau de neurones peut être rendu vraiment rapide et efficace, Hollywood peut prendre fin: il suffira de prendre le scénario et le film est prêt. Cette opportunité sera utile pour générer de grands ensembles pour la formation d'autres réseaux de neurones et pour créer de nouveaux algorithmes de compression et de transmission de vidéo en streaming.

Sergey Vasiliev

Recommandé: