Quand L'intelligence Artificielle Commencera-t-elle à Exprimer La Série - Vue Alternative

Table des matières:

Quand L'intelligence Artificielle Commencera-t-elle à Exprimer La Série - Vue Alternative
Quand L'intelligence Artificielle Commencera-t-elle à Exprimer La Série - Vue Alternative

Vidéo: Quand L'intelligence Artificielle Commencera-t-elle à Exprimer La Série - Vue Alternative

Vidéo: Quand L'intelligence Artificielle Commencera-t-elle à Exprimer La Série - Vue Alternative
Vidéo: L'Intelligence Artificielle en Afrique : Réalisations, Problèmes, Enjeux et Solutions 2024, Avril
Anonim

Les éditeurs russes expérimentent déjà l'enregistrement automatique de livres audio; à l'avenir, l'intelligence artificielle pourra se voir confier la traduction des publications en série et les doubler avec les voix de leurs acteurs préférés. À propos des caractéristiques de ces technologies et du temps qu'il faudra pour les créer.

Le discours oral devient écrit

Sur YouTube, les sous-titres automatiques des vidéos sont créés par un logiciel de reconnaissance vocale et de traduction vocale. Il repose sur des réseaux de neurones auto-apprenants. Cette option a plus de dix ans, mais le résultat est encore loin d'être idéal. Le plus souvent, vous ne pouvez saisir que le sens général de ce qui a été dit. Quelle est la difficulté?

Disons, explique Andrey Filchenkov, responsable du laboratoire d'apprentissage automatique de l'université ITMO, que nous construisons un algorithme de reconnaissance vocale. Cela nécessite la formation d'un réseau neuronal sur un grand tableau de données.

Il faudra des centaines, des milliers d'heures d'enregistrements de discours et leur comparaison correcte avec des textes, y compris le marquage du début et de la fin des phrases, le changement d'interlocuteurs, etc. C'est ce qu'on appelle l'enceinte. Plus il est grand, meilleure est la formation du réseau neuronal. De très grands corpus ont été créés pour la langue anglaise, donc la reconnaissance est bien meilleure. Mais pour le russe ou, par exemple, l'espagnol, il y a beaucoup moins de données, et pour de nombreuses autres langues, il n'y a pas de données du tout.

«Et le résultat est approprié», conclut le scientifique.

«De plus, nous évaluons la signification d'un mot, d'une phrase dans un film non seulement par le son, l'intonation de l'acteur et ses expressions faciales sont également importantes. Comment interprétez-vous cela? - ajoute Sergey Aksenov, professeur agrégé du département des technologies de l'information de l'Université polytechnique de Tomsk.

Vidéo promotionelle:

«Comment gérer les caractéristiques d'un discours fluide? Articulation floue, esquisse, interjections, pauses? Après tout, en fonction de cela, le sens change, comme dans "vous ne pouvez pas être pardonné". Comment apprendre à une machine à déterminer où l'orateur a une virgule? Et dans la poésie? " - liste Marina Bolsunovskaya, responsable du laboratoire «Systèmes industriels de traitement des données en continu» du Centre NTI SPbPU.

Les projets les plus réussis, selon l'expert, se situent dans des zones étroites. Par exemple, un système de reconnaissance du discours professionnel des médecins utilisant des termes médicaux, mis au point par le groupe de sociétés RTC, aide les médecins à conserver leurs antécédents médicaux.

«Ici, vous pouvez définir clairement le domaine et mettre en évidence les mots clés du discours. Le médecin insiste spécifiquement sur certaines sections avec l'intonation: les plaintes des patients, le diagnostic », précise Bolsunovskaya.

Un autre problème est signalé par Mikhail Burtsev, responsable du laboratoire des systèmes neuronaux et de l'apprentissage profond au MIPT. Le fait est que jusqu'à présent, la machine réussit mieux à reconnaître le texte lorsqu'une personne parle que plusieurs, comme dans les films.

Traduction avec contexte

Prenons une vidéo en anglais, par exemple, un extrait de la série télévisée "Game of Thrones", et actionnons les sous-titres russes automatiques. Ce que nous voyons est susceptible de nous faire rire.

Toujours de * Game of Thrones *
Toujours de * Game of Thrones *

Toujours de * Game of Thrones *.

Cependant, dans le domaine de la traduction automatique, la technologie a remporté un succès impressionnant. Ainsi, Google Translate traduit assez bien les textes dans les langues courantes, souvent une édition minimale est requise.

Le fait est que le traducteur de réseau neuronal est également formé sur un large éventail de données initiales correctement étiquetées - un corpus parallèle, qui montre à quoi devrait ressembler chaque phrase de la langue d'origine en russe.

«Construire de tels bâtiments est très laborieux, coûteux et prend du temps, cela prend des mois et des années. Pour former un réseau de neurones, nous avons besoin de textes de la taille de la Bibliothèque d'Alexandrie. Les modèles sont universels, mais tout dépend de la langue. Si vous fournissez beaucoup de données, par exemple, dans Avar, et la traduction sera de haute qualité, mais pour Avar, il n'y a tout simplement pas une telle quantité de données », déclare Andrey Filchenkov.

«La traduction est un produit distinct qui est lié à l'original, mais qui ne lui est pas égal», déclare Ilya Mirin, directeur de l'École d'économie numérique de l'Université fédérale d'Extrême-Orient. - Un exemple typique est les traductions de Dmitry Puchkov (gobelin) de films étrangers dans les années 90. Ce n'est qu'après son travail que ce qui s'y passait est devenu clair. Nous n'avons rien trouvé de satisfaisant dans les versions VHS. Sinon, essayez de traduire quelque chose de "Le Maître et Marguerite" dans une langue que vous connaissez bien. Par exemple, «dans un manteau noir avec une doublure sanglante». La machine ne peut pas faire cela."

Les réseaux de neurones apprennent bien de nombreux exemples typiques, mais les films sont pleins de significations et de connotations complexes, des blagues qui ne sont pas accessibles à la machine - elle ne peut pas les distinguer.

«Dans chaque épisode de la série animée Futurama, il y a une référence au cinéma américain classique - Casablanca, Roman Holiday, etc. Dans de tels moments, afin de saisir et de reconditionner le sens pour ceux qui n'ont pas regardé ces films, le traducteur doit trouver un analogue proche du contexte russe. Une traduction automatique incorrecte peut être très décourageante pour le spectateur », poursuit Mirin.

À son avis, la qualité de la traduction automatique est proche de 80%, le reste est une spécificité qui doit être ajoutée manuellement, impliquant des experts. «Et si 20 à 30% des phrases nécessitent une correction manuelle, à quoi sert la traduction automatique?» - dit le chercheur.

«La traduction est l'étape la plus problématique», reconnaît Sergey Aksenov. - Tout dépend de la sémantique et du contexte. Les outils disponibles peuvent être utilisés pour la traduction et le doublage automatique, par exemple des dessins animés pour enfants avec un vocabulaire simple. Mais avec l'interprétation des unités phraséologiques, des noms propres, des mots qui renvoient les téléspectateurs à certaines réalités culturelles, des difficultés surgissent."

Dans les films et les vidéos, le contexte est toujours visuel et est souvent accompagné de musique et de bruit. Nous spéculons à partir de l'image de quoi le héros parle. La parole transformée en texte est dépourvue de cette information, la traduction est donc difficile. C'est la situation pour les traducteurs travaillant avec des sous-titres de texte sans voir le film. Ils ont souvent tort. La traduction automatique est la même histoire.

Discours de voix AI

Pour doubler une série traduite en russe, vous avez besoin d'un algorithme pour générer une parole naturelle à partir d'un texte - un synthétiseur. Ils sont créés par de nombreuses sociétés informatiques, dont Microsoft, Amazon, Yandex, et ils se débrouillent plutôt bien.

Selon Andrey Filchenkov, il y a quelques années, une minute de doublage d'un synthétiseur vocal prenait plusieurs heures, maintenant la vitesse de traitement a considérablement augmenté. La tâche de synthèse vocale pour certains domaines où des dialogues neutres sont nécessaires est assez bien résolue.

Beaucoup tiennent déjà pour acquis une conversation avec un robot au téléphone, l'exécution de commandes depuis un navigateur de voiture, un dialogue avec Alice dans une voiture Yandex. Drive. Mais pour le doublage de séries télévisées, ces technologies ne sont pas encore adéquates.

«Le problème est l'émotion et l'action. Nous avons appris à rendre la voix de la machine humaine, mais pour qu'elle semble toujours appropriée au contexte et inspire la confiance, il est encore loin. Un mauvais doublage peut facilement tuer la perception d'un film », a déclaré Filchenkov.

Selon Mikhail Burtsev, la synthèse vocale est bien réelle. Cependant, cela demande beaucoup de calculs et ne peut pas être effectué en temps réel pour un prix raisonnable.

«Il existe des algorithmes qui synthétisent la parole qui est similaire à celle d'un acteur en particulier. C'est le timbre, et la manière de parler, et bien plus encore. Ainsi, tout acteur étranger parlera réellement russe », prédit Burtsev. Il s'attend à des progrès notables dans les années à venir.

Sergei Aksenov donne cinq à dix ans pour développer des outils de traduction et de doublage d'œuvres complexes dans les langues les plus courantes comme l'anglais. Le scientifique cite l'exemple de Skype, qui a démontré il y a plusieurs années la possibilité d'organiser des cours en ligne pour des écoliers parlant différentes langues. Mais même dans ce cas, le système ne sera pas idéal, il devra constamment apprendre: gagner du vocabulaire, prendre en compte le contexte culturel.