Les Réseaux De Neurones Ont Appris à Lire Les Pensées En Temps Réel. Quoi? Ne Pas! - Vue Alternative

Les Réseaux De Neurones Ont Appris à Lire Les Pensées En Temps Réel. Quoi? Ne Pas! - Vue Alternative
Les Réseaux De Neurones Ont Appris à Lire Les Pensées En Temps Réel. Quoi? Ne Pas! - Vue Alternative

Vidéo: Les Réseaux De Neurones Ont Appris à Lire Les Pensées En Temps Réel. Quoi? Ne Pas! - Vue Alternative

Vidéo: Les Réseaux De Neurones Ont Appris à Lire Les Pensées En Temps Réel. Quoi? Ne Pas! - Vue Alternative
Vidéo: [Talks FridayLabs] Introduction au Réseau de Neurones 2024, Mai
Anonim

Il y a quelques jours, le portail de pré-impression bioRxiv.org a publié les travaux de chercheurs russes de l'Institut de physique et de technologie de Moscou et des sociétés Neurobotics et Neuroassistive Technologies, qui sont engagées dans la création d'interfaces de neuro-ordinateurs. L'article soutient que les scientifiques et les développeurs ont réussi à enseigner un algorithme en temps réel pour reconstruire une vidéo vue par une personne à l'aide de signaux EEG. Cela semble vraiment cool et intéressant - presque comme une lecture dans les pensées. En fait, tout n'est bien sûr pas si simple: les ordinateurs n'ont pas appris à lire dans les pensées. En bref, l'ordinateur a appris de l'enregistrement EEG pour déterminer quelle image de cinq classes différentes précédemment connues le sujet a vu. À propos de la façon dont l'expérience a été construite, des tâches que les scientifiques se sont fixées et des raisons pour lesquelles il est peu probable que la lecture dans les pensées soit réalisée dans un proche avenir, nous le disons dans notre blog.

Image
Image

De manière générale, l'idée de lire le signal électrique du cerveau et de le déchiffrer pour voir ce qu'une personne pense ou fait à un moment donné, compte tenu du rythme des progrès technologiques actuels, ne semble pas si difficile. Voici un signal, et voici ce que signifie ce signal: ajoutez deux et deux, entraînez le classificateur et obtenez le résultat dont nous avons besoin.

Le résultat est ce que les futuristes et les ignorants appelleraient la «lecture dans l'esprit». Et il semble qu'une telle technologie pourrait se retrouver dans une variété d'applications: des interfaces cerveau-ordinateur parfaites qui vous permettent de contrôler des prothèses intelligentes, à la création d'un système qui raconte enfin ce à quoi votre chat pense.

En réalité, bien sûr, tout n'est pas du tout aussi simple, et l'idée de créer un tel algorithme s'effondre presque immédiatement sur l'obstacle principal: il faut faire face au cerveau. Le cerveau est une chose très complexe: il a plus de 80 milliards de neurones, et les connexions entre eux sont plusieurs milliers de fois plus.

Même pour un profane, c'est clair: c'est trop pour nous de comprendre de quoi chaque cellule et leur agrégat est responsable. Les scientifiques n'ont pas encore déchiffré le connectome humain - même s'ils essaient de le faire avec un succès relatif.

Une question logique se pose: est-il vraiment nécessaire de comprendre les fonctions de chaque neurone pour représenter avec précision ce qui se passe dans le cerveau? N'y a-t-il vraiment pas assez de cartes fonctionnelles, par exemple?

La réponse à cette question, en fait, devrait être «oui», mais même ici, ce n'est pas si simple. Si l'humanité comptait sur le décodage du connectome comme seule clé pour percer le mystère du cerveau, alors nous serions très proches aujourd'hui. Cependant, nous savons quelque chose sur le fonctionnement de notre cerveau et, bien sûr, nous pouvons l'utiliser avec succès.

Vidéo promotionelle:

L'un des exemples les plus brillants et les plus évidents d'utilisation des connaissances accumulées par les scientifiques sur le travail du cerveau est, bien sûr, les neurointerfaces. De manière générale, il existe réellement aujourd'hui des technologies qui permettent de lire l'activité cérébrale et de l'utiliser pour contrôler, par exemple, le curseur d'une souris d'ordinateur ou encore les mouvements d'une prothèse.

Il existe deux façons d'obtenir un fonctionnement efficace de l'interface neurale. La première méthode est celle des potentiels évoqués: nous regardons la courbe de l'activité électrique de certaines parties du cerveau et y sélectionnons les changements du signal qui, comme nous le savons avec certitude, apparaissent à un certain moment après la présentation du stimulus.

La deuxième façon n'est pas du tout de compter sur la stimulation, mais d'utiliser l'imagination de la personne pour générer un signal électrique qui peut être lu. Par exemple, on peut demander à une personne de visualiser comment elle bouge sa jambe ou son bras.

Les deux méthodes présentent des inconvénients importants. La première est gênée par le fait que le nombre de potentiels évoqués de manière fiable que nous connaissons n'est pas si grand: leur nombre ne peut pas couvrir exactement toutes les actions possibles effectuées par une personne. L'inconvénient du second est qu'une longue formation est nécessaire pour obtenir au moins un certain effet.

Les auteurs de la pré-impression ont décidé de combiner les deux approches pour créer des interfaces de neuro-ordinateur, estimant à juste titre que cela sauverait les deux méthodes de limitations importantes et permettrait de développer une nouvelle méthode plus efficace pour travailler avec les neurointerfaces aujourd'hui.

On a également supposé que cette méthode serait fermée (boucle fermée), c'est-à-dire que le résultat obtenu avec son aide affectera à son tour le fonctionnement de l'algorithme. Mais plus là-dessus plus tard.

Au tout début, l'algorithme décompose toutes les images en signes-composants séparés, répartis dans l'espace vectoriel, à l'aide desquels elles peuvent ensuite être corrélées avec certains signaux cérébraux enregistrés à l'aide de l'EEG.

À ce stade initial, un classificateur binaire est utilisé - en gros, le très "deux et deux": ayant un signal suffisamment propre (l'enregistrement EEG a été débarrassé des artefacts moteurs), vous pouvez choisir l'un ou l'autre avec une précision supérieure à un coup aléatoire.

Dans leurs expériences, les scientifiques ont utilisé des vidéos avec des objets de cinq classes: des images de personnes, des cascades, des formes géométriques abstraites, des sports extrêmes et des voitures Goldberg. D'une part, un tel ensemble semble étrange, mais d'autre part, il semble que tous ces objets soient très différents les uns des autres. En effet, y a-t-il quelque chose en commun entre les visages humains et les formes géométriques abstraites?

Pendant ce temps, selon le classificateur binaire, les figures abstraites et les visages humains sont indiscernables les uns des autres: les résultats de neuf des 17 participants à l'étude montrent que l'interface neurale, apparemment, n'a pas réussi à les distinguer. Mais les machines de Goldberg et les mêmes visages, du point de vue du cerveau, au contraire, diffèrent bien les uns des autres.

Résultats de la classification. Un - formes abstraites, W - chutes d'eau, HF - visages humains, GM - Voitures Goldberg, E - sports extrêmes
Résultats de la classification. Un - formes abstraites, W - chutes d'eau, HF - visages humains, GM - Voitures Goldberg, E - sports extrêmes

Résultats de la classification. Un - formes abstraites, W - chutes d'eau, HF - visages humains, GM - Voitures Goldberg, E - sports extrêmes.

À première vue, on ne sait pas très bien pourquoi cela se produit: au contraire, les mêmes machines et formes géométriques ne peuvent pas être distinguées les unes des autres. Tout devient un peu plus clair si vous regardez un exemple de cadres des vidéos utilisées.

Exemples d'images de cinq classes
Exemples d'images de cinq classes

Exemples d'images de cinq classes.

Très probablement (nous, bien sûr, ne pouvons que supposer ici), le succès du classificateur dépend de combien les images utilisées dans les deux classes diffèrent les unes des autres dans certaines fonctionnalités de base superficielles - tout d'abord, en couleur. Cela correspond également bien au fait que la dimension de l'espace latent dans l'auto-encodeur est de 10.

En général, pour classer les images de cinq classes, une dimension de cinq suffit, mais dans ce cas, cela se fera au maximum par l'histogramme des couleurs - ce qui signifie que la dimension 10 ne s'améliorera pas trop et clarifiera le résultat.

Il n'est pas très clair pourquoi les auteurs n'ont pas utilisé un classificateur linéaire pour cinq classes à la fois au lieu de dix classificateurs binaires: très probablement, cela aurait été mieux.

Vient ensuite l'étape de reconstruction de l'image résultante. Le fait qu'il ressorte taché est compréhensible - le point est dans la même dimension de l'espace latent. Mais ici, deux choses se confondent.

Le premier est que les images originales et reconstruites sont très similaires les unes aux autres. Ici, bien sûr, je ne veux déranger personne (y compris nous-mêmes - nous sommes tous pour le progrès), mais ce n'est pas dû au fait que le signal est si bien enregistré et décodé (et même en temps réel!), Mais en raison du fait que l'algorithme restaure exactement les images qu'il avait déjà.

De plus, cela ne fonctionne pas toujours aussi bien que nous le souhaiterions: si, par exemple, vous regardez la vidéo du système, vous remarquerez que dans la vidéo avec un homme qui pleure, l'interface neuronale voit pour une raison quelconque une femme. En effet, l'algorithme ne reconstruit pas des images, mais des objets d'une certaine classe: même s'il le fait assez efficacement, rien n'empêche l'algorithme de voir un bateau à l'image d'une moto - simplement parce qu'ils appartiennent à la même classe.

Par conséquent, ce qui apparaît à l'écran lors de la reconstruction n'est souvent qu'une image moyenne de tous les objets de classe utilisés.

Quant à la signification de l'utilisation d'un système fermé, tout n'est pas très clair avec lui: lors de l'exécution d'une tâche, une personne voit à la fois un enregistrement de signaux EEG et une image émerger progressivement de sa tête. Il est difficile de dire si cela aide réellement - les auteurs n'ont pas comparé les performances de l'interface avec et sans renforcement. Mais à première vue, cela ne semble pas vraiment. Si cela aide, je veux vraiment savoir comment.

En général, nous pouvons conclure que les ordinateurs n'ont pas appris à lire dans les pensées. Et ils n'ont même pas appris à recréer la vidéo. Tout ce qu'ils ont appris à faire, sur la base des travaux des scientifiques, est de classer les objets qu'ils ont vus en cinq classes en fonction de certains critères de base. Les ordinateurs ont-ils pu faire cela auparavant? Bien sûr, ils pourraient. Y a-t-il un cerveau ici? Bien sûr, il y en a: mais c'est le cerveau qui voit, pas le cerveau qui comprend exactement ce qu'il a vu.

Elizaveta Ivtushok

Recommandé: