Comment Les Réseaux De Neurones Sont-ils Nés? - Vue Alternative

Table des matières:

Comment Les Réseaux De Neurones Sont-ils Nés? - Vue Alternative
Comment Les Réseaux De Neurones Sont-ils Nés? - Vue Alternative

Vidéo: Comment Les Réseaux De Neurones Sont-ils Nés? - Vue Alternative

Vidéo: Comment Les Réseaux De Neurones Sont-ils Nés? - Vue Alternative
Vidéo: 2.1 - Réseaux convolutifs (CNN) 2024, Septembre
Anonim

Au cours des 10 dernières années, grâce à la méthode dite d'apprentissage en profondeur, nous avons reçu les meilleurs systèmes d'intelligence artificielle - par exemple, des logiciels de reconnaissance vocale sur les smartphones ou le dernier traducteur automatique de Google. L'apprentissage en profondeur, en fait, est devenu une nouvelle tendance dans les réseaux de neurones déjà célèbres qui sont en vogue et sortent depuis plus de 70 ans. Les réseaux de neurones ont été proposés pour la première fois par Warren McCullough et Walter Pitts en 1994, deux chercheurs de l'Université de Chicago. En 1952, ils sont allés travailler au Massachusetts Institute of Technology pour jeter les bases du premier département de cognition.

Les réseaux de neurones ont été l'un des principaux axes de recherche en neurosciences et en informatique jusqu'en 1969, date à laquelle, selon les légendes, ils ont été tués par les mathématiciens du MIT Marvin Minsky et Seymour Papert, qui un an plus tard sont devenus codirecteurs du nouveau laboratoire d'intelligence artificielle du MIT.

Cette méthode a connu un renouveau dans les années 1980, s'est légèrement estompée dans l'ombre dans la première décennie du nouveau siècle et est revenue en fanfare dans la seconde, au sommet de l'incroyable développement des puces graphiques et de leur puissance de traitement.

«Il y a une perception que les idées en science sont comme des épidémies de virus», déclare Tomaso Poggio, professeur de cognition et de sciences du cerveau au MIT. «Il existe probablement cinq ou six souches principales de virus de la grippe, et l'une d'entre elles revient à un rythme enviable sur 25 ans. Les gens sont infectés, acquièrent une immunité et ne tombent pas malades pendant les 25 prochaines années. Puis une nouvelle génération apparaît, prête à être infectée par la même souche virale. En science, les gens tombent amoureux d'une idée, cela rend tout le monde fou, puis ils la battent à mort et acquièrent une immunité contre elle - ils en ont assez. Les idées doivent avoir une fréquence similaire."

Questions lourdes

Les réseaux de neurones sont une méthode d'apprentissage automatique dans laquelle un ordinateur apprend à effectuer certaines tâches en analysant des exemples de formation. En règle générale, ces exemples sont étiquetés manuellement à l'avance. Un système de reconnaissance d'objets, par exemple, peut absorber des milliers d'images marquées de voitures, de maisons, de tasses à café, etc., puis être en mesure de trouver des motifs visuels dans ces images qui sont constamment en corrélation avec certaines étiquettes.

Un réseau neuronal est souvent comparé au cerveau humain, qui possède également de tels réseaux, constitués de milliers ou de millions de nœuds de traitement simples, qui sont étroitement interconnectés. La plupart des réseaux de neurones modernes sont organisés en couches de nœuds et les données les traversent dans une seule direction. Un nœud individuel peut être associé à plusieurs nœuds dans la couche en dessous, à partir de laquelle il reçoit des données, et à plusieurs nœuds dans la couche au-dessus, auxquels il transmet des données.

Vidéo promotionelle:

Image
Image

Le nœud attribue un numéro à chacun de ces liens entrants - «poids». Lorsque le réseau est actif, le nœud reçoit différents ensembles de données - des nombres différents - pour chacune de ces connexions et multiplie par le poids approprié. Il additionne ensuite les résultats pour former un seul nombre. Si ce nombre est inférieur au seuil, le nœud ne transmet pas de données à la couche suivante. Si le nombre dépasse le seuil, le nœud "se réveille" en envoyant le nombre - la somme des données d'entrée pondérées - à toutes les connexions sortantes.

Lorsqu'un réseau de neurones est formé, tous ses poids et seuils sont initialement définis dans un ordre aléatoire. Les données d'apprentissage sont introduites dans la couche inférieure - la couche d'entrée - et passent par les couches suivantes, se multipliant et s'ajoutant de manière complexe, jusqu'à arriver finalement, déjà transformées, dans la couche de sortie. Pendant l'entraînement, les poids et les seuils sont continuellement ajustés jusqu'à ce que les données d'entraînement avec les mêmes étiquettes produisent des conclusions similaires.

Esprit et machines

Les réseaux neuronaux décrits par McCullough et Pitts en 1944 avaient à la fois des seuils et des poids, mais n'étaient pas organisés en couches, et les scientifiques n'ont pas spécifié de mécanisme d'apprentissage spécifique. Mais McCullough et Pitts ont montré qu'un réseau neuronal pouvait, en principe, calculer n'importe quelle fonction, comme n'importe quel ordinateur numérique. Le résultat était plus du domaine des neurosciences que de l'informatique: il fallait supposer que le cerveau humain pouvait être considéré comme un appareil informatique.

Les réseaux neuronaux continuent d'être un outil précieux pour la recherche neurobiologique. Par exemple, des couches individuelles du réseau ou des règles d'ajustement des poids et des seuils reproduisaient les caractéristiques observées de la neuroanatomie humaine et des fonctions cognitives, et affectaient ainsi la façon dont le cerveau traite l'information.

Le premier réseau de neurones entraînable, le Perceptron (ou Perceptron), a été démontré par le psychologue de l'Université Cornell Frank Rosenblatt en 1957. La conception de Perceptron était similaire à un réseau neuronal moderne, sauf qu'il avait une seule couche avec des poids et des seuils réglables pris en sandwich entre les couches d'entrée et de sortie.

Les «Perceptrons» ont fait l'objet de recherches actives en psychologie et en informatique jusqu'en 1959, lorsque Minsky et Papert ont publié un livre intitulé «Perceptrons», qui montrait que faire des calculs assez ordinaires sur les perceptrons n'était pas pratique en termes de temps.

Image
Image

"Bien sûr, toutes les limitations disparaissent en quelque sorte si vous rendez les machines un peu plus complexes", par exemple en deux couches ", explique Poggio. Mais à l'époque, le livre avait un effet dissuasif sur la recherche sur les réseaux neuronaux.

«Ces choses méritent d'être examinées dans un contexte historique», déclare Poggio. «La preuve a été construite pour la programmation dans des langages comme Lisp. Peu de temps auparavant, les gens utilisaient tranquillement des ordinateurs analogiques. Il n'était pas tout à fait clair à l'époque à quoi aboutirait la programmation. Je pense qu'ils ont un peu exagéré, mais, comme toujours, vous ne pouvez pas tout diviser en noir et blanc. Si vous considérez cela comme une compétition entre l'informatique analogique et l'informatique numérique, alors ils se battaient pour ce qui était nécessaire."

Périodicité

Dans les années 1980, cependant, les scientifiques avaient développé des algorithmes pour modifier les poids et les seuils des réseaux neuronaux qui étaient suffisamment efficaces pour les réseaux à plus d'une couche, supprimant de nombreuses limitations identifiées par Minsky et Papert. Cette région a connu une Renaissance.

Mais d'un point de vue raisonnable, il manquait quelque chose dans les réseaux de neurones. Une session de formation suffisamment longue pourrait conduire à une révision des paramètres réseau jusqu'à ce qu'il commence à classer les données de manière utile, mais que signifient ces paramètres? Quelles caractéristiques de l'image le dispositif de reconnaissance d'objets examine-t-il et comment les rassemble-t-il pour former les signatures visuelles des voitures, des maisons et des tasses de café? Une étude des poids de composés individuels ne répondra pas à cette question.

Ces dernières années, les informaticiens ont commencé à mettre au point des méthodes ingénieuses pour déterminer les stratégies analytiques adoptées par les réseaux de neurones. Mais dans les années 80, les stratégies de ces réseaux étaient incompréhensibles. Par conséquent, au tournant du siècle, les réseaux de neurones ont été remplacés par des machines vectorielles, une approche alternative à l'apprentissage automatique basée sur des mathématiques pures et élégantes.

Le récent regain d'intérêt pour les réseaux de neurones - la révolution de l'apprentissage profond - est dû à l'industrie du jeu. Les graphismes complexes et le rythme rapide des jeux vidéo modernes nécessitent un matériel capable de suivre la tendance, ce qui se traduit par un GPU (unité de traitement graphique) avec des milliers de cœurs de traitement relativement simples sur une seule puce. Les scientifiques ont vite compris que l'architecture GPU était parfaite pour les réseaux de neurones.

Les GPU modernes ont permis de construire des réseaux des années 1960 et des réseaux à deux et trois couches des années 1980 en paquets de réseaux à 10, 15 et même 50 couches d'aujourd'hui. C'est de cela que le mot «deep» est responsable dans «deep learning». À la profondeur du réseau. Le Deep Learning est actuellement responsable des systèmes les plus efficaces dans presque tous les domaines de la recherche en intelligence artificielle.

Sous la capuche

L'opacité du réseau inquiète toujours les théoriciens, mais il y a des progrès sur ce front. Poggio dirige un programme de recherche sur les fondements théoriques de l'intelligence. Récemment, Poggio et ses collègues ont publié une étude théorique des réseaux de neurones en trois parties.

La première partie, qui a été publiée le mois dernier dans l'International Journal of Automation and Computing, traite de la gamme de calculs que les réseaux d'apprentissage profond peuvent faire, et lorsque les réseaux profonds tirent parti des réseaux peu profonds. Les parties deux et trois, qui ont été publiées sous forme de conférences, abordent les défis de l'optimisation globale, c'est-à-dire s'assurer que le réseau trouvera les paramètres qui correspondent le mieux à ses données de formation, et lorsque le réseau comprend si bien les spécificités de ses données de formation. qui ne peut généraliser d'autres manifestations des mêmes catégories.

Il reste encore de nombreuses questions théoriques à poser, auxquelles il faudra apporter des réponses. Mais il y a espoir que les réseaux de neurones pourront enfin briser le cycle des générations qui les plongent dans la chaleur et parfois le froid.

ILYA KHEL

Recommandé: