Les Scientifiques Ont Créé Une IA Auto-apprenante Capable De Jouer à Tous Les Jeux - Vue Alternative

Table des matières:

Les Scientifiques Ont Créé Une IA Auto-apprenante Capable De Jouer à Tous Les Jeux - Vue Alternative
Les Scientifiques Ont Créé Une IA Auto-apprenante Capable De Jouer à Tous Les Jeux - Vue Alternative

Vidéo: Les Scientifiques Ont Créé Une IA Auto-apprenante Capable De Jouer à Tous Les Jeux - Vue Alternative

Vidéo: Les Scientifiques Ont Créé Une IA Auto-apprenante Capable De Jouer à Tous Les Jeux - Vue Alternative
Vidéo: Comprendre et Développer une IA qui Gagne (Création d'un Jeu Vidéo) 2024, Mars
Anonim

Les développeurs du système révolutionnaire d'intelligence artificielle auto-apprentissage AlphaGo Zero ont annoncé la création d'une nouvelle version de cette machine, qui peut apprendre indépendamment à jouer à n'importe quel jeu de société et battre une personne. Sa description a été présentée dans la revue Science.

Profondeurs de l'esprit

Le système AlphaGo AI a été développé par David Silver et ses collègues à la fin de 2014, et son travail a été "testé" sur le champion d'Europe Fan Hui, qui a perdu les cinq matches contre la machine. En mars 2016, AlphaGo a battu le champion du monde de Go Lee Sedol dans une série de cinq matches, dont un seul s'est soldé par une victoire humaine.

Silver et ses collègues ont pu atteindre ces succès en construisant leur IA sur la base non pas d'un, mais de deux réseaux de neurones à la fois - des algorithmes spéciaux qui imitent le travail des chaînes de neurones dans le cerveau humain. L'un d'eux est chargé d'évaluer la position actuelle au tableau, et le second utilise les résultats d'analyse préparés par le premier réseau afin de choisir l'étape suivante.

La prochaine étape logique dans le développement d'AlphaGo a été l'élimination du principal inconvénient de tous les réseaux de neurones et systèmes d'intelligence artificielle existants - la nécessité de leur apprendre ce qu'ils devraient faire en utilisant d'énormes archives de données traitées manuellement par une personne, ou avec la participation directe d'une personne, comme cela s'est produit dans les premières étapes. développement d'AlphaGo.

Silver et son équipe ont résolu ce problème en créant un réseau de neurones fondamentalement nouveau basé sur les algorithmes d'apprentissage par renforcement. Ce réseau de neurones, contrairement à son prédécesseur stellaire, qui était à l'origine formé à des jeux avec des bénévoles et avait des stratégies de jeu primitives intégrées, a commencé son travail en tant que débutant absolu avec une base de connaissances nulle.

En d'autres termes, elle ne connaissait que les règles du jeu de Go, les conditions initiales et les conditions de victoire, puis l'ordinateur a appris indépendamment à jouer cette ancienne stratégie chinoise, jouant avec lui-même et agissant par essais et erreurs. La seule limite dans son travail était le temps maximum pour réfléchir au déménagement - c'était environ 0,4 seconde.

Vidéo promotionelle:

Après chacun de ces jeux, le système d'IA analysait tous ses mouvements et se souvenait de ceux qui avaient rapproché l'une de ses «moitiés» de la victoire, et entrait dans une sorte de «liste noire» de ces étapes qui perdaient franchement. À partir de ces données, le réseau de neurones s'est reconstruit, atteignant progressivement le niveau atteint par la première version d'AlphaGo avant la série de jeux avec Lee Sedol.

Le passage à des algorithmes d'auto-apprentissage a non seulement permis à AlphaGo Zero de surpasser son prédécesseur et de le battre 100-0, mais a également amélioré de nombreux autres aspects de son travail. En particulier, le processus de sa formation n'a duré que trois jours et environ cinq millions de jeux, ce qui était un ordre de grandeur inférieur aux demandes de la première version de l'IA.

Le chemin de l'excellence

La réussite des expériences avec AlphaGo Zero a conduit Silver et son équipe à se demander si un réseau neuronal similaire pouvait être utilisé pour remporter la couronne de champion dans d'autres types de jeux de stratégie et de société.

Pour ce faire, les scientifiques ont construit un autre nouvel élément dans AlphaGo Zero - des algorithmes heuristiques pour la recherche aléatoire de solutions, ainsi que du code prenant en compte l'existence d'un tirage au sort dans certains jeux. De plus, la nouvelle version de l'alpha améliorait continuellement sa structure, plutôt que d'être mise à jour par étapes comme son prédécesseur.

Ces changements relativement simples, comme l'ont montré d'autres expériences, ont considérablement augmenté la vitesse d'auto-apprentissage de ce système d'intelligence artificielle et l'ont transformé en une machine universelle capable de jouer à toutes sortes de stratégies de tableau.

Les scientifiques ont testé ses travaux sur trois types de jeux - le go, les échecs ordinaires et leur variété japonaise, le shogi. Dans les trois cas, la nouvelle idée originale de Silver a atteint le niveau d'un grand maître en moins d'un million de parties, atteignant une sélectivité presque humaine dans le choix des coups possibles en seulement 9 à 12 heures d'entraînement aux échecs et 13 jours à jouer.

Auparavant, elle battait les programmes informatiques les plus sophistiqués qui jouent à ces jeux - l'algorithme de Stockfish a abandonné la quatrième heure d'entraînement AlphaZero, tandis qu'Elmo, l'actuel champion de shogi, n'a duré que deux heures. Enfin, la première version d'AlphaGo a commencé à céder à son "petit-fils" par environ 30 heures de sa formation.

Les prochaines «victimes» d'AlphaZero, comme l'ont noté les scientifiques, pourraient être de «vrais» jeux informatiques, tels que Starcraft II et Dota 2. À leur avis, remporter le championnat dans ces disciplines d'esport ouvrira la voie à l'IA auto-apprenante pour pénétrer dans des domaines moins formalisés de la science et de la culture. et la technologie.

Recommandé: