Attaques Adverses: Pourquoi Un Réseau De Neurones Est-il Facile à Tromper? - Vue Alternative

Table des matières:

Attaques Adverses: Pourquoi Un Réseau De Neurones Est-il Facile à Tromper? - Vue Alternative
Attaques Adverses: Pourquoi Un Réseau De Neurones Est-il Facile à Tromper? - Vue Alternative

Vidéo: Attaques Adverses: Pourquoi Un Réseau De Neurones Est-il Facile à Tromper? - Vue Alternative

Vidéo: Attaques Adverses: Pourquoi Un Réseau De Neurones Est-il Facile à Tromper? - Vue Alternative
Vidéo: 2.1 - Réseaux convolutifs (CNN) 2024, Mai
Anonim

Au cours des dernières années, alors que les systèmes d'apprentissage en profondeur deviennent de plus en plus répandus, les scientifiques ont démontré comment les modèles contradictoires peuvent affecter n'importe quoi, d'un simple classificateur d'images aux systèmes de diagnostic du cancer - et même créer une situation potentiellement mortelle. Malgré tout leur danger, cependant, les exemples contradictoires sont mal compris. Et les scientifiques étaient inquiets: ce problème peut-il être résolu?

Qu'est-ce qu'une attaque antagoniste? C'est une façon de tromper un réseau de neurones en produisant un résultat incorrect. Ils sont principalement utilisés dans la recherche scientifique pour tester la robustesse des modèles par rapport à des données non standard. Mais dans la vraie vie, à titre d'exemple, vous pouvez changer quelques pixels dans une image de panda pour que le réseau neuronal soit sûr que l'image est un gibbon. Bien que les scientifiques n'ajoutent que du «bruit» à l'image.

Attaque adversaire: comment tromper un réseau de neurones?

De nouveaux travaux du Massachusetts Institute of Technology indiquent un moyen possible de surmonter ce problème. En le résolvant, nous pourrions créer des modèles d'apprentissage profond beaucoup plus fiables qui seraient beaucoup plus difficiles à manipuler de manière malveillante. Mais regardons d'abord les bases des schémas contradictoires.

Comme vous le savez, la puissance de l'apprentissage en profondeur vient de sa capacité supérieure à reconnaître des modèles (modèles, modèles, diagrammes, modèles) dans les données. Nourrissez le réseau neuronal des dizaines de milliers de photos d'animaux marqués, et il apprend quels modèles sont associés à un panda et lesquels sont associés à un singe. Elle peut ensuite utiliser ces motifs pour reconnaître de nouvelles images d'animaux qu'elle n'a jamais vues auparavant.

Mais les modèles d'apprentissage profond sont également très fragiles. Étant donné que le système de reconnaissance d'image ne repose que sur des motifs de pixels et non sur une compréhension plus conceptuelle de ce qu'il voit, il est facile de l'amener à voir quelque chose de complètement différent - simplement en brisant les motifs d'une certaine manière. Exemple classique: ajoutez du bruit à une image de panda et le système la classe comme gibbon avec une certitude de presque 100%. Ce bruit sera l'attaque antagoniste.

Image
Image

Vidéo promotionelle:

Depuis plusieurs années, les scientifiques observent ce phénomène, notamment dans les systèmes de vision par ordinateur, sans vraiment savoir comment se débarrasser de telles vulnérabilités. En fait, les travaux présentés la semaine dernière lors d'une grande conférence sur la recherche en intelligence artificielle - ICLR - remettent en question l'inévitabilité des attaques contradictoires. Il peut sembler que peu importe le nombre d'images de panda que vous transmettez au classificateur d'images, il y aura toujours une sorte d'indignation avec laquelle vous brisez le système.

Mais de nouveaux travaux du MIT démontrent que nous pensions mal aux attaques adverses. Au lieu de trouver des moyens de collecter davantage de données de qualité qui alimentent le système, nous devons repenser fondamentalement notre approche de la formation.

Les travaux le démontrent en révélant une propriété assez intéressante des exemples contradictoires qui nous aide à comprendre pourquoi ils sont efficaces. Quel est le truc: du bruit ou des autocollants apparemment aléatoires qui confondent le réseau neuronal, en fait, utilisent des motifs subtils très ponctuels que le système de visualisation a appris à associer fortement à des objets spécifiques. En d'autres termes, la machine ne plante pas quand on voit un gibbon là où on voit un panda. En fait, elle voit un arrangement régulier de pixels, invisibles pour les humains, qui apparaissaient beaucoup plus souvent sur des images avec des gibbons que sur des images avec des pandas pendant l'entraînement.

Les scientifiques l'ont démontré par l'expérience: ils ont créé un ensemble de données d'images de chiens, qui ont toutes été modifiées de telle sorte que le classificateur d'images standard les identifie par erreur comme des chats. Ils ont ensuite étiqueté ces images avec des «chats» et les ont utilisées pour former un nouveau réseau neuronal à partir de zéro. Après la formation, ils ont montré au réseau neuronal des images réelles de chats, et elle les a tous correctement identifiés comme des chats.

Les chercheurs ont émis l'hypothèse qu'il existe deux types de corrélations dans chaque ensemble de données: des modèles qui correspondent réellement à la signification des données, tels que les moustaches dans les images de chat ou la coloration de la fourrure dans les images de panda, et les modèles qui existent dans les données d'entraînement mais ne sont pas propagés. à d'autres contextes. Ces dernières corrélations "trompeuses", appelons-les ainsi, sont utilisées dans des attaques contradictoires. Un système de reconnaissance, formé pour reconnaître les modèles "trompeurs", les trouve et pense voir un singe.

Cela nous indique que si nous voulons éliminer le risque d'attaque accusatoire, nous devons changer la façon dont nous formons nos modèles. Nous permettons actuellement au réseau de neurones de sélectionner les corrélations qu'il souhaite utiliser pour identifier les objets de l'image. En conséquence, nous n'avons aucun contrôle sur les corrélations qu'il trouve, qu'elles soient réelles ou trompeuses. Si, au lieu de cela, nous formions nos modèles à se souvenir uniquement de modèles réels - qui sont liés à des pixels significatifs - en théorie, il serait possible de produire des systèmes d'apprentissage en profondeur qui ne peuvent pas être confondus.

Lorsque les scientifiques ont testé cette idée, en utilisant uniquement des corrélations réelles pour entraîner leur modèle, ils ont en fait réduit sa vulnérabilité: elle n'était manipulée que 50% du temps, tandis qu'un modèle formé sur des corrélations réelles et fausses était manipulé 95% du temps.

En bref, vous pouvez vous défendre contre les attaques adverses. Mais nous avons besoin de plus de recherche pour les éliminer complètement.

Ilya Khel