Les Neurones Rêvent-ils De Moutons électriques? Le Créateur Des Premiers Réseaux De Neurones A Parlé De Leur évolution Et De Leur Avenir - Vue Alternative

2024 Auteur: Keith Bush | [email protected]. Dernière modifié: 2023-12-16 14:19

Jeffrey Hinton est co-créateur du concept d'apprentissage profond, lauréat du prix Turing 2019 et ingénieur Google. La semaine dernière, lors d'une conférence des développeurs d'E / S, Wired l'a interviewé et a discuté de sa fascination pour le cerveau et de sa capacité à modéliser un ordinateur basé sur la structure neurale du cerveau. Pendant longtemps, ces idées ont été considérées comme farfelues. Une conversation intéressante et divertissante sur la conscience, les projets futurs de Hinton et si les ordinateurs peuvent apprendre à rêver.

Qu'arrivera-t-il aux réseaux de neurones?

Commençons par l'époque où vous avez écrit vos tout premiers articles très influents. Tout le monde a dit: "C'est une idée intelligente, mais nous ne pouvons vraiment pas concevoir d'ordinateurs de cette façon." Expliquez pourquoi vous avez insisté seul et pourquoi vous étiez si sûr de trouver quelque chose d'important.

Il me semblait que le cerveau ne pouvait pas fonctionner d'une autre manière. Il doit travailler en étudiant la force des connexions. Et si vous voulez qu'un appareil fasse quelque chose d'intelligent, vous avez deux options: vous le programmez ou il apprend. Et personne n'a programmé les gens, nous avons donc dû étudier. Cette méthode devait être correcte.

Expliquez ce que sont les réseaux de neurones. Expliquez le concept original

Vous prenez des éléments de traitement relativement simples qui ressemblent très vaguement à des neurones. Ils ont des connexions entrantes, chaque connexion a un poids, et ce poids peut changer pendant l'entraînement. Ce que fait le neurone, c'est de prendre les actions sur les connexions multipliées par les poids, de les résumer, puis de décider d'envoyer ou non les données. Si la somme est suffisamment grande, cela crée une sortie. Si le montant est négatif, il n'envoie rien. C'est tout. Tout ce que vous avez à faire est de connecter un nuage de ces neurones à des poids et de trouver comment changer ces poids, puis ils feront n'importe quoi. La seule question est de savoir comment vous allez changer les poids.

Vidéo promotionelle:

Quand avez-vous réalisé qu'il s'agissait d'une représentation approximative du fonctionnement du cerveau?

Oh, oui, tout était prévu à l'origine. Conçu pour ressembler au cerveau au travail.

Ainsi, à un moment donné de votre carrière, vous avez commencé à comprendre le fonctionnement du cerveau. Peut-être que vous aviez douze ans, peut-être vingt-cinq ans. Quand avez-vous décidé d'essayer de modéliser des ordinateurs comme des cerveaux?

Oui immédiatement. C'était tout le point. Toute cette idée était de créer un dispositif d'apprentissage qui apprend comme le cerveau, selon les idées des gens sur la façon dont le cerveau apprend, en modifiant la force des connexions. Et ce n'était pas mon idée, Turing avait la même idée. Bien que Turing ait inventé une grande partie des fondements de l'informatique standard, il pensait que le cerveau était un appareil désorganisé avec des poids aléatoires et utilisait l'apprentissage par renforcement pour changer les connexions, afin qu'il puisse apprendre n'importe quoi. Et il pensait que c'était la meilleure voie vers l'intelligence.

Et vous avez suivi l'idée de Turing selon laquelle la meilleure façon de construire une machine est de la concevoir comme le cerveau humain. C'est ainsi que fonctionne le cerveau humain, alors créons une machine similaire

Oui, non seulement Turing le pensait. Beaucoup le pensaient.

Quand les temps sombres sont-ils arrivés? Quand est-il arrivé que d'autres personnes qui travaillaient là-dessus et croyaient que l'idée de Turing était correcte ont commencé à reculer et que vous avez continué à plier votre ligne?

Il y a toujours eu une poignée de personnes qui ont cru quoi qu'il arrive, en particulier dans le domaine de la psychologie. Mais parmi les informaticiens, je suppose que dans les années 90, il est arrivé que les ensembles de données étaient assez petits et que les ordinateurs n'étaient pas aussi rapides. Et avec de petits ensembles de données, d'autres méthodes telles que les machines vectorielles de support ont légèrement mieux fonctionné. Ils n'étaient pas tellement gênés par le bruit. C'était donc triste car dans les années 80 nous avons développé une méthode de rétro-propagation, qui est très importante pour les réseaux de neurones. Nous pensions qu'il résoudrait tout. Et ils étaient étonnés qu'il n'ait rien décidé. La question était vraiment à l'échelle, mais nous ne le savions pas.

Pourquoi pensez-vous que cela ne fonctionnait pas?

Nous avons pensé que cela ne fonctionnait pas car nous n'avions pas d'algorithmes tout à fait corrects et de fonctions objectives pas tout à fait correctes. J'ai longtemps pensé que c'était parce que nous essayions de faire un apprentissage supervisé lorsque vous étiquetiez les données, et que nous devions faire un apprentissage non supervisé lorsque l'apprentissage se faisait sur des données non étiquetées. Il s'est avéré que la question portait principalement sur une échelle.

C'est intéressant. Le problème était donc que vous n'aviez pas suffisamment de données. Vous pensiez avoir la bonne quantité de données, mais vous l'avez étiquetée de manière incorrecte. Alors vous venez de mal diagnostiquer le problème?

Je pensais que l'erreur était que nous utilisions des étiquettes. La plupart de votre entraînement se déroule sans utiliser d'étiquettes, vous essayez simplement de modéliser une structure dans les données. Je le pense encore. Je pense que puisque les ordinateurs deviennent plus rapides, si l'ordinateur est assez rapide, alors pour tout ensemble de données d'une taille donnée, il vaut mieux s'entraîner sans supervision. Et une fois que vous avez terminé l'apprentissage non supervisé, vous pouvez apprendre avec moins de balises.

Donc, dans les années 1990, vous continuez vos recherches, vous êtes dans le milieu universitaire, vous publiez toujours, mais vous ne résolvez pas de gros problèmes. Avez-vous déjà eu un moment où vous avez dit: «Vous savez quoi, cela suffit. Vais-je essayer de faire autre chose »? Ou vous êtes-vous juste dit que vous continueriez à faire du deep learning [c'est-à-dire le concept de deep learning, deep learning des réseaux de neurones

Oui. Quelque chose comme ça devrait fonctionner. Je veux dire, les connexions dans le cerveau apprennent d'une certaine manière, nous avons juste besoin de comprendre comment. Et il existe probablement de nombreuses façons différentes de renforcer les liens dans le processus d'apprentissage; le cerveau en utilise un. Il peut y avoir d'autres moyens. Mais vous avez certainement besoin de quelque chose qui puisse renforcer ces liens tout en apprenant. Je n'en ai jamais douté.

Vous n'en avez jamais douté. Quand a-t-il semblé que cela fonctionnait?

L'une des plus grandes déceptions des années 80 était que si nous faisions des réseaux avec de nombreuses couches cachées, nous ne pouvions pas les former. Ce n'est pas tout à fait vrai, car vous pouvez entraîner des processus relativement simples comme l'écriture manuscrite. Mais nous ne savions pas comment former la plupart des réseaux de neurones profonds. Et vers 2005, j'ai trouvé un moyen de former des réseaux profonds sans supervision. Vous entrez des données, disons des pixels, et vous entraînez plusieurs détecteurs de détails, ce qui expliquait bien pourquoi les pixels étaient tels qu'ils sont. Ensuite, vous alimentez ces détecteurs de pièces avec les données et vous entraînez un autre ensemble de détecteurs de pièces afin que nous puissions expliquer pourquoi des détecteurs de pièces spécifiques ont des corrélations spécifiques. Vous continuez à vous entraîner couche par couche. Mais la chose la plus intéressante étaitqui pourrait être décomposé mathématiquement et prouver que chaque fois que vous entraînez une nouvelle couche, vous n'améliorerez pas nécessairement le modèle de données, mais vous aurez affaire à une plage de qualité de votre modèle. Et cette gamme s'est améliorée avec chaque couche ajoutée.

Qu'entendez-vous par la gamme de qualité de votre modèle?

Une fois que vous avez obtenu le modèle, vous pourriez vous poser la question: "Dans quelle mesure ce modèle trouve-t-il ces données?" Vous lui montrez les données et posez la question: "Trouvez-vous tout cela comme prévu, ou est-ce inhabituel?" Et cela pourrait être mesuré. Et je voulais obtenir un modèle, un bon modèle qui examine les données et dit: «Oui, oui. Je le savais. Cela n’est pas surprenant ». Il est toujours très difficile de calculer exactement à quel point un modèle trouvera les données inhabituelles. Mais vous pouvez en calculer la portée. On peut dire que le modèle trouvera ces données moins inhabituelles que cela. Et on pourrait montrer qu'à mesure que de nouvelles couches sont ajoutées aux détecteurs de détails, le modèle est formé et, à chaque couche ajoutée au fur et à mesure qu'il trouve des données, la portée de la compréhension de la façon dont il trouve les données inhabituelles s'améliore.

Donc, vers 2005, vous avez fait cette percée mathématique. Quand avez-vous commencé à obtenir les bonnes réponses? Avec quelles données avez-vous travaillé? Votre première percée a été avec les données vocales, non?

Ce n'étaient que des chiffres manuscrits. Très simple. Et à peu près au même moment, le développement des GPU (Graphics Processing Units) a commencé. Et les gens qui faisaient des réseaux de neurones ont commencé à utiliser des GPU en 2007. J'ai eu un très bon élève qui a commencé à utiliser des GPU pour trouver des routes sur des photographies aériennes. Il a écrit le code, qui a ensuite été adopté par d'autres étudiants utilisant le GPU pour reconnaître les phonèmes dans la parole. Ils ont utilisé cette idée de pré-formation. Et quand la pré-formation a été faite, ils ont simplement accroché les balises sur le dessus et utilisé la propagation arrière. Il s'est avéré qu'il est possible de créer un réseau très profond qui a été préalablement formé de cette manière. Et puis la rétropropagation pourrait être appliquée et cela fonctionnait réellement. En reconnaissance vocale, cela fonctionnait très bien. Au début, cependant,ce n'était pas beaucoup mieux.

Était-ce mieux que la reconnaissance vocale disponible dans le commerce? Contourné par les meilleurs articles scientifiques sur la reconnaissance vocale?

Sur un ensemble de données relativement petit appelé TIMIT, c'était légèrement meilleur que le meilleur travail académique. IBM a également fait beaucoup de travail.

Les gens ont rapidement réalisé que tout cela - puisqu'il contourne les modèles standard qui étaient en développement depuis 30 ans - fonctionnerait très bien s'il était un peu développé. Mes diplômés sont allés chez Microsoft, IBM et Google, et Google a très rapidement créé un logiciel de reconnaissance vocale fonctionnel. En 2012, ce travail, qui avait été effectué en 2009, avait atteint Android. Android est soudainement bien meilleur en reconnaissance vocale.

Parlez-moi d'un moment où vous, qui avez stocké ces idées pendant 40 ans, publiez sur ce sujet depuis 20 ans, contournez soudainement vos collègues. À quoi ressemble ce sentiment?

Eh bien, à cette époque, je n'avais stocké ces idées que pendant 30 ans!

C'est vrai

Il y avait un grand sentiment que tout cela s'était finalement transformé en un réel problème.

Vous souvenez-vous de la première fois que vous avez obtenu les données indiquant cela?

Ne pas.

D'accord. Vous voyez donc que cela fonctionne avec la reconnaissance vocale. Quand avez-vous commencé à appliquer les réseaux de neurones à d'autres problèmes?

Au début, nous avons commencé à les appliquer à toutes sortes d'autres problèmes. George Dahl, avec qui nous avons travaillé à l'origine sur la reconnaissance vocale, les a utilisés pour prédire si une molécule pouvait se lier à quelque chose et devenir un bon médicament. Et il y a eu une compétition. Il a simplement appliqué notre technologie standard, conçue pour la reconnaissance vocale, à la prédiction de l'activité des médicaments et a remporté le concours. C'était le signe que nous faisons quelque chose de très polyvalent. Puis un étudiant est apparu qui a dit: «Vous savez, Jeff, cette chose fonctionnera avec la reconnaissance d'image, et Fei-Fei Li a créé un ensemble de données approprié pour cela. Il y a un concours public, faisons quelque chose."

Nous avons obtenu des résultats qui dépassaient de loin la vision par ordinateur standard. C'était en 2012.

Autrement dit, dans ces trois domaines, vous avez excellé: la modélisation des produits chimiques, la parole, la voix. Où avez-vous échoué?

Comprenez-vous que les revers sont temporaires?

Eh bien, qu'est-ce qui sépare les zones où tout fonctionne le plus rapidement et les zones où cela prend le plus de temps? On dirait que le traitement visuel, la reconnaissance vocale et quelque chose comme les choses humaines de base que nous faisons avec la perception sensorielle sont considérés comme les premiers obstacles à surmonter, non?

Oui et non, car il y a d'autres choses que nous faisons bien - les mêmes capacités motrices. Nous sommes très bons en contrôle moteur. Nos cerveaux sont définitivement équipés pour cela. Et ce n'est que maintenant que les réseaux de neurones commencent à rivaliser avec les meilleures autres technologies pour cela. Ils gagneront à la fin, mais maintenant ils commencent tout juste à gagner.

Je pense que la pensée, la pensée abstraite est la dernière chose que nous apprenons. Je pense qu'ils seront parmi les dernières choses que ces réseaux de neurones apprendront à faire.

Et vous continuez à dire que les réseaux de neurones finiront par prévaloir partout

Eh bien, nous sommes des réseaux de neurones. Tout ce que nous pouvons, ils le peuvent.

C'est vrai, mais le cerveau humain est loin d'être la machine informatique la plus efficace jamais construite

Définitivement pas.

Certainement pas mon cerveau humain! Existe-t-il un moyen de modéliser des machines beaucoup plus efficaces que le cerveau humain?

Philosophiquement, je n'ai aucune objection à l'idée qu'il pourrait y avoir une manière complètement différente de faire tout cela. Peut-être que si vous commencez par la logique, essayez d'automatiser la logique, trouvez un prouveur de théorème sophistiqué, raisonnez, puis décidez que c'est par le raisonnement que vous en venez à la perception visuelle, il se peut que cette approche gagne. Mais pas encore. Je n'ai aucune objection philosophique à une telle victoire. Nous savons juste que le cerveau en est capable.

Mais il y a aussi des choses que notre cerveau ne peut pas bien faire. Cela signifie-t-il que les réseaux de neurones ne pourront pas non plus les faire correctement?

Très probablement, oui.

Et il y a un problème distinct, c'est que nous ne comprenons pas pleinement comment fonctionnent les réseaux de neurones, n'est-ce pas?

Oui, nous ne comprenons pas vraiment comment ils fonctionnent.

Nous ne comprenons pas comment fonctionnent les réseaux de neurones descendants. C'est un élément fondamental du fonctionnement des réseaux de neurones que nous ne comprenons pas. Expliquez ceci, puis laissez-moi me poser la question suivante: si nous savons comment tout cela fonctionne, comment cela fonctionne-t-il alors?

Lorsque vous regardez les systèmes de vision par ordinateur modernes, la plupart d'entre eux sont pour la plupart tournés vers l'avenir; ils n'utilisent pas de connexions de rétroaction. Et puis il y a autre chose dans les systèmes de vision par ordinateur modernes qui sont très sujets aux erreurs contradictoires. Vous pouvez légèrement modifier quelques pixels, et ce qui était une image de panda et qui ressemble toujours exactement à un panda pour vous deviendra soudainement une autruche dans votre compréhension d'un réseau de neurones. Evidemment, la méthode de remplacement des pixels est pensée de manière à inciter le réseau de neurones à penser à une autruche. Mais le fait est que c'est toujours un panda pour vous.

Au départ, nous pensions que tout fonctionnait très bien. Mais alors, face au fait qu'ils regardaient un panda et étaient sûrs que c'était une autruche, nous nous sommes inquiétés. Et je pense qu'une partie du problème est qu'ils n'essaient pas de reconstruire à partir de vues de haut niveau. Ils essaient d'apprendre de manière isolée, où seules les couches de détecteurs de détails apprennent, et le but principal est de changer les poids pour mieux trouver la bonne réponse. Nous avons récemment découvert, ou Nick Frost a découvert, à Toronto, que l'ajout de la reconstruction augmente la résistance à l'adversité. Je pense que dans la vision humaine, la reconstruction est utilisée pour apprendre. Et parce que nous apprenons beaucoup en faisant la reconstruction, nous sommes beaucoup plus résistants aux attaques adverses.

Vous pensez que la communication en aval dans un réseau neuronal vous permet de tester comment quelque chose est reconstruit. Vous le vérifiez et assurez-vous qu'il s'agit d'un panda, pas d'une autruche

Je pense que c'est important, oui.

Mais les scientifiques du cerveau ne sont pas tout à fait d'accord avec cela?

Les scientifiques du cerveau ne soutiennent pas que si vous avez deux régions du cortex sur le chemin de la perception, il y aura toujours des connexions inverses. Ils discutent de ce à quoi cela sert. Il peut être nécessaire pour l'attention, pour l'apprentissage ou pour la reconstruction. Ou pour les trois.

Et donc nous ne savons pas ce qu'est le feedback. Vous construisez vos nouveaux réseaux de neurones, en partant de l'hypothèse que … non, même pas - vous construisez du feedback, car il est nécessaire pour la reconstruction de vos réseaux de neurones, même si vous ne comprenez même pas comment fonctionne le cerveau?

Oui.

N'est-ce pas un gadget? Eh bien, si vous essayez de faire quelque chose comme un cerveau, mais que vous ne savez pas si le cerveau le fait?

Pas vraiment. Je ne suis pas en neuroscience computationnelle. Je n'essaie pas de modéliser le fonctionnement du cerveau. Je regarde le cerveau et dis: "Cela fonctionne, et si nous voulons faire quelque chose d'autre qui fonctionne, nous devons le regarder et nous en inspirer." Nous sommes inspirés par les neurones et non par la construction d'un modèle neuronal. Ainsi, tout le modèle de neurones que nous utilisons s'inspire du fait que les neurones ont de nombreuses connexions et qu'ils changent de poids.

C'est intéressant. Si j'étais un informaticien travaillant sur des réseaux neuronaux et voulant contourner Jeff Hinton, une option serait de construire une communication descendante et de la baser sur d'autres modèles de science du cerveau. Basé sur la formation et non sur la reconstruction

S'il y avait de meilleurs modèles, vous auriez gagné. Oui.

C'est très, très intéressant. Abordons un sujet plus général. Ainsi, les réseaux de neurones peuvent résoudre tous les problèmes possibles. Y a-t-il des énigmes dans le cerveau humain que les réseaux de neurones ne peuvent pas ou ne veulent pas couvrir? Par exemple, les émotions

Ne pas.

L'amour peut donc être reconstruit avec un réseau neuronal? La conscience peut être reconstruite?

Absolument. Une fois que vous avez compris ce que ces choses signifient. Nous sommes des réseaux de neurones, non? La conscience est un sujet particulièrement intéressant pour moi. Mais … les gens ne savent pas vraiment ce qu'ils veulent dire par ce mot. Il existe de nombreuses définitions différentes. Et je pense que c'est un terme assez scientifique. Par conséquent, si il y a 100 ans vous demandiez aux gens: qu'est-ce que la vie? Ils répondaient: «Eh bien, les êtres vivants ont une force vitale, et quand ils meurent, la force vitale les quitte. C'est la différence entre les vivants et les morts, soit vous avez la vitalité, soit vous n'en avez pas. Maintenant que nous n'avons plus de force vitale, nous pensons que ce concept est venu avant la science. Et une fois que vous commencez à comprendre un peu la biochimie et la biologie moléculaire, vous n'avez plus besoin de force vitale, vous comprendrez comment tout cela fonctionne vraiment. Et la même chose, je pense, se produira avec la conscience. Je pense,cette conscience est une tentative d'expliquer les phénomènes mentaux en utilisant une entité. Et cette essence, ce n'est pas nécessaire. Une fois que vous pouvez l'expliquer, vous pouvez expliquer comment nous faisons tout ce qui rend les gens conscients, expliquer les différentes significations de la conscience sans impliquer d'entités spéciales.

Il s'avère qu'il n'y a pas d'émotions qui ne pourraient pas être créées? Il n'y a pas de pensée qui ne puisse être créée? Il n'y a rien dont l'esprit humain soit capable qui ne puisse théoriquement être recréé par un réseau neuronal pleinement fonctionnel une fois que nous comprenons réellement comment fonctionne le cerveau?

John Lennon a chanté quelque chose de similaire dans l'une de ses chansons.

En êtes-vous sûr à 100%?

Non, je suis bayésien, donc j'en suis sûr à 99,9%.

D'accord, qu'est-ce donc que 0,01%?

Eh bien, nous pourrions, par exemple, tous faire partie d'une simulation plus large.

C'est suffisant. Alors, que nous apprend notre travail sur le cerveau sur le cerveau?

Eh bien, je pense que d'après ce que nous avons appris au cours des 10 dernières années, il est intéressant de noter que si vous prenez un système avec des milliards de paramètres et une fonction objective - par exemple, pour combler une lacune dans une ligne de mots - cela fonctionne mieux qu'il ne le devrait. Cela fonctionnera beaucoup mieux que vous ne le pensez. Vous pourriez penser, et de nombreuses personnes dans la recherche traditionnelle sur l'IA penseraient que vous pouvez prendre un système avec un milliard de paramètres, l'exécuter à des valeurs aléatoires, mesurer le gradient de la fonction objectif, puis le modifier pour améliorer la fonction objectif. Vous pourriez penser qu'un algorithme sans espoir resterait inévitablement bloqué. Mais non, il s'avère que c'est un très bon algorithme. Et plus l'échelle est grande, mieux cela fonctionne. Et cette découverte était essentiellement empirique. Il y avait une théorie derrière tout cela, bien sûr, mais la découverte était empirique. Et maintenant,puisque nous avons trouvé cela, il semble plus probable que le cerveau calcule le gradient d'une fonction objective et met à jour les poids et la force de la connexion synaptique pour suivre ce gradient. Nous avons juste besoin de découvrir ce qu'est cette fonction cible et comment elle s'aggrave.

Mais nous n'avons pas compris cela avec l'exemple du cerveau? Vous ne comprenez pas la mise à jour du solde?

C'était de la théorie. Il y a longtemps, les gens pensaient que c'était possible. Mais en arrière-plan, il y avait toujours des informaticiens qui disaient: "Oui, mais l'idée que tout est aléatoire et que l'apprentissage est dû à la descente de gradient ne fonctionnera pas avec un milliard de paramètres, il faut connecter beaucoup de connaissances." Nous savons maintenant que ce n’est pas le cas. Vous pouvez simplement entrer des paramètres aléatoires et tout apprendre.

Plongeons un peu plus profondément. À mesure que nous en apprendrons de plus en plus, nous continuerons vraisemblablement à en apprendre de plus en plus sur le fonctionnement du cerveau humain en effectuant des tests massifs de modèles basés sur notre compréhension du fonctionnement du cerveau. Une fois que nous comprendrons mieux tout cela, y aura-t-il un moment où nous recâblerons essentiellement nos cerveaux pour devenir des machines beaucoup plus efficaces?

Si nous comprenons vraiment ce qui se passe, nous pouvons améliorer certaines choses comme l'éducation. Et je pense que nous allons nous améliorer. Il serait très étrange de comprendre enfin ce qui se passe dans votre cerveau, comment il apprend, et de ne pas s'adapter pour mieux apprendre.

Comment pensez-vous que dans quelques années, nous utiliserons ce que nous avons appris sur le cerveau et comment l'apprentissage en profondeur fonctionne pour transformer l'éducation? Comment changeriez-vous les classes?

Je ne suis pas sûr que nous en apprendrons beaucoup dans quelques années. Je pense qu'il faudra plus de temps pour changer l'éducation. Mais en parlant de cela, les assistants [numériques] deviennent assez intelligents. Et lorsque les assistants peuvent comprendre les conversations, ils peuvent parler et éduquer les enfants.

Et en théorie, si nous comprenons mieux le cerveau, nous pouvons programmer des aides pour mieux converser avec les enfants, sur la base de ce qu'ils ont déjà appris

Oui, mais je n'y ai pas beaucoup réfléchi. Je fais autre chose. Mais tout cela semble assez similaire à la vérité.

Pouvons-nous comprendre comment fonctionnent les rêves?

Oui, je suis très intéressé par les rêves. Je suis tellement intéressé que j'ai au moins quatre théories du rêve différentes.

Parlez-nous d'eux - des premier, deuxième, troisième, quatrième

Il y a longtemps, il y avait ce genre de chose appelé réseaux de Hopfield, et ils ont étudié les souvenirs comme attracteurs locaux. Hopfield a constaté que si vous essayez de mettre trop de souvenirs, ils sont foirés. Ils prendront deux attracteurs locaux et les combineront en un attracteur quelque part à mi-chemin entre eux.

Puis Francis Crick et Graham Mitchison sont venus et ont dit que nous pouvons nous débarrasser de ces faux creux en apprenant (c'est-à-dire en oubliant ce que nous avons appris). Nous désactivons l'entrée de données, mettons le réseau neuronal dans un état aléatoire, le laissons se calmer, disons que c'est mauvais, modifions les connexions pour qu'il ne tombe pas dans cet état, et ainsi nous pouvons faire en sorte que le réseau stocke plus de souvenirs.

Ensuite, Terry Sejnowski et moi sommes entrés et avons dit: «Écoutez, si nous avons non seulement les neurones qui contiennent des souvenirs, mais un tas d'autres neurones, pouvons-nous trouver un algorithme qui utilise tous ces autres neurones pour aider à rappeler des souvenirs? … En conséquence, nous avons créé un algorithme d'apprentissage automatique de Boltzmann. Et l'algorithme d'apprentissage automatique de Boltzmann avait une propriété extrêmement intéressante: je montre les données, et cela passe en quelque sorte par le reste des unités jusqu'à ce qu'il entre dans un état très heureux, et après cela, il augmente la force de toutes les connexions, sur la base du fait que deux unités sont actives en même temps.

Aussi, vous devriez avoir une phase dans laquelle vous éteignez l'entrée, laissez l'algorithme "bruisser" et le mettre dans un état dans lequel il est heureux, pour qu'il fantasme, et dès qu'il a un fantasme, vous dites: "Prends toutes les paires de neurones qui sont actifs et réduisent la force des connexions."

Je vous explique l'algorithme comme une procédure. Mais en réalité, cet algorithme est un produit des mathématiques et de la question: "Comment faut-il changer ces chaînes de connexions pour que ce réseau de neurones avec toutes ces unités cachées de données ne semble pas surprenant?" Et il devrait également y avoir une autre phase, que nous appelons la phase négative, lorsque le réseau fonctionne sans entrée de données et désapprend, quel que soit l'état dans lequel vous le mettez.

Nous rêvons pendant de nombreuses heures chaque nuit. Et si vous vous réveillez soudainement, vous pouvez dire que vous venez de rêver, car le rêve est stocké dans la mémoire à court terme. Nous savons que nous voyons des rêves pendant de nombreuses heures, mais le matin, après le réveil, nous ne pouvons nous souvenir que du dernier rêve, et nous ne nous souvenons pas des autres, ce qui est très réussi, car on pourrait les prendre pour la réalité. Alors pourquoi ne nous souvenons-nous pas du tout de nos rêves? Selon Crick, c'est le sens des rêves: désapprendre ces choses. Vous apprenez en quelque sorte l'inverse.

Terry Seinovski et moi avons montré qu'il s'agit en fait de la procédure d'apprentissage du maximum de vraisemblance pour les machines Boltzmann. C'est la première théorie sur les rêves.

Je veux passer à vos autres théories. Mais ma question est la suivante: avez-vous pu entraîner l'un de vos algorithmes d'apprentissage profond à rêver réellement?

Certains des premiers algorithmes qui pouvaient apprendre à travailler avec des unités cachées étaient des machines Boltzmann. Ils étaient extrêmement inefficaces. Mais plus tard, j'ai trouvé un moyen de travailler avec des approximations, ce qui s'est avéré efficace. Et cela a en fait servi d'élan à la reprise du travail avec l'apprentissage en profondeur. Ce sont des choses qui entraînent une couche de détecteurs de caractéristiques à la fois. Et c'était une forme efficace de la machine restrictive de Boltzmann. Et donc elle a fait ce genre d'apprentissage inversé. Mais au lieu de s'endormir, elle pouvait juste fantasmer un peu après chaque marque de données.

D'accord, les androïdes rêvent en fait de moutons électriques. Passons aux théories deux, trois et quatre

La deuxième théorie s'appelait l'algorithme Wake Sleep. Vous devez former un modèle génératif. Et vous avez l'idée de créer un modèle capable de générer des données, de disposer de couches de détecteurs de caractéristiques et d'activer les couches supérieures et inférieures, et ainsi de suite, jusqu'à l'activation des pixels - en créant une image, essentiellement. Mais tu voudrais lui apprendre autre chose. Vous souhaitez qu'il reconnaisse les données.

Et donc vous devez faire un algorithme avec deux phases. Dans la phase d'éveil, les données arrivent, il essaie de les reconnaître et au lieu d'étudier les connexions qu'il utilise pour la reconnaissance, il étudie les connexions génératives. Les données arrivent, j'active les unités cachées. Et puis j'essaye d'apprendre à ces unités cachées à récupérer ces données. Il apprend à reconstruire dans chaque couche. Mais la question est, comment apprendre les connexions directes? L'idée est donc que si vous connaissiez les connexions directes, vous pourriez apprendre les connexions inverses, car vous pourriez apprendre à faire de l'ingénierie inverse.

Maintenant, il s'avère également que si vous utilisez des jointures inversées, vous pouvez également apprendre des jointures directes, car vous pouvez simplement commencer par le haut et générer des données. Et puisque vous générez des données, vous connaissez les états de toutes les couches cachées et pouvez étudier les connexions directes pour restaurer ces états. Et voici ce qui se passe: si vous commencez avec des connexions aléatoires et essayez d'utiliser les deux phases en alternance, vous réussirez. Pour que cela fonctionne bien, vous devez essayer différentes options, mais cela fonctionnera.

D'accord, qu'en est-il des deux autres théories? Il ne nous reste que huit minutes, je pense que je n'aurai pas le temps de tout poser

Donnez-moi une autre heure et je vous parlerai des deux autres.

Parlons de la suite. Où va votre recherche? Quels problèmes essayez-vous de résoudre maintenant?

En fin de compte, vous devrez travailler sur quelque chose que le travail n'a pas encore terminé. Je pense que je travaille peut-être sur quelque chose que je ne terminerai jamais - les capsules, une théorie sur la façon dont la perception visuelle est faite à l'aide de la reconstruction et comment l'information est dirigée vers les bons endroits. Les deux principaux facteurs de motivation étaient que dans les réseaux de neurones standard, les informations, l'activité dans la couche sont simplement envoyées automatiquement quelque part, et vous ne prenez pas de décision quant à l'endroit où les envoyer. L'idée derrière les capsules était de décider où envoyer les informations.

Maintenant que j'ai commencé à travailler sur des capsules, des gens très intelligents chez Google ont inventé des transformateurs qui font de même. Ils décident où envoyer les informations, et c'est une grande victoire.

Nous reviendrons l'année prochaine pour parler des théories du rêve numéro trois et numéro quatre.

Ilya Khel