Vous Savez Tout De Suite Que C'est Du Porno. L'ordinateur Comprendra-t-il? - Vue Alternative

Table des matières:

Vous Savez Tout De Suite Que C'est Du Porno. L'ordinateur Comprendra-t-il? - Vue Alternative
Vous Savez Tout De Suite Que C'est Du Porno. L'ordinateur Comprendra-t-il? - Vue Alternative

Vidéo: Vous Savez Tout De Suite Que C'est Du Porno. L'ordinateur Comprendra-t-il? - Vue Alternative

Vidéo: Vous Savez Tout De Suite Que C'est Du Porno. L'ordinateur Comprendra-t-il? - Vue Alternative
Vidéo: SURFRIDER X STUDIO404 : L'influence des cultures numériques sur l'environnement 2024, Septembre
Anonim

Tumblr a annoncé au début du mois dernier qu'il interdirait le porno. Lorsque la nouvelle politique sur le contenu est entrée en vigueur, environ deux semaines plus tard, le 17 décembre, il est devenu évident qu'il y aurait des problèmes. Après avoir déployé un système d'intelligence artificielle censé bannir toute pornographie sur le site, il a signalé par erreur des messages innocents dans 455,4 millions de blogs sur le site parmi 168,2 milliards de messages: des vases, des sorcières, des poissons et tout le reste.

Pornographie pour l'intelligence artificielle

Bien que l'on ne sache pas quel filtre automatique Tumblr a utilisé ou créé le sien - la société n'a pas répondu aux demandes de renseignements sur le sujet - il est clair que le réseau social est coincé entre sa propre politique et sa technologie. Par exemple, la position incohérente du site sur les «femmes montrant des tétons» et la nudité artistique, par exemple, a conduit à des décisions contextuelles qui démontrent que même Tumblr ne sait pas quoi interdire sur sa plateforme. Comment une entreprise fréquente peut-elle déterminer ce qu'elle considère comme obscène?

Premièrement, bloquer un contenu à risque est difficile car il est difficile de définir ce que c'est dès le départ. La définition de l'obscénité est un piège à ours qui a plus de cent ans, en 1896, les États-Unis ont d'abord adopté des lois réglementant l'obscénité. En 1964, dans Jacobellis c. Ohio, sur la question de savoir si l'Ohio pouvait interdire la projection d'un film de Louis Malle, la Cour suprême a publié ce qui est probablement la définition la plus célèbre de la pornographie hardcore aujourd'hui: si je comprends bien, il sera inclus dans la description textuelle; et je ne pourrai peut-être jamais le rendre intelligible », a déclaré le juge Potter Stewart. "Mais je sais ce que c'est quand je le vois, et le film associé à cette affaire ne l'est pas."

Les algorithmes d'apprentissage automatique ont le même problème. C'est exactement le problème que Brian Delorge, PDG de Picnix, une entreprise qui vend des technologies spécialisées d'intelligence artificielle, tente de résoudre. L'un de leurs produits, Iris, est une application côté client pour détecter la pornographie pour «aider les gens», comme le dit Delorge, «qui ne veulent pas de pornographie dans leur vie». Il note que le problème particulier avec la pornographie est que cela peut être n'importe quoi, un tas de choses différentes - et les images qui ne sont pas pornographiques peuvent avoir des éléments similaires. L'image de la fête à la plage peut être bloquée non pas parce qu'elle a plus de peau que la photo du bureau, mais parce qu'elle est sur le bord. «C'est pourquoi il est très difficile de former un algorithme de reconnaissance d'image à tout faire en même temps», explique DeLorge."Lorsque la définition devient difficile pour les humains, l'ordinateur a également des difficultés." Si les gens ne peuvent pas s'entendre sur ce qu'est la pornographie ou non, un ordinateur peut-il même espérer connaître la différence?

Afin d'apprendre à une IA à détecter le porno, la première chose à faire est de le nourrir. Beaucoup de pornographie. Où peux-je le recevoir? Eh bien, la première chose que les gens font est de télécharger un tas de vidéos de Pornhub, XVideos, explique Dan Shapiro, co-fondateur de Lemay.ai, une startup qui crée des filtres IA pour ses clients. "C'est l'une de ces zones grises de nature juridique - par exemple, si vous apprenez du contenu des autres, est-ce que cela vous appartient?"

Une fois que les programmeurs ont téléchargé des tonnes de porno, ils ont découpé des images non pornographiques de la vidéo pour s'assurer que les images utilisées ne bloquent pas les livreurs de pizza. Les plates-formes paient des personnes, principalement en dehors des États-Unis, pour étiqueter ce contenu; le travail est mal payé et ennuyeux, comme entrer dans un captcha. Ils s'assoient juste et notent: c'est du porno, c'est ça. Vous devez filtrer un peu, car tout le porno sort avec une étiquette. L'apprentissage est meilleur si vous utilisez non seulement des photographies, mais de grands échantillons de données.

Vidéo promotionelle:

«Souvent, vous n'avez pas seulement à filtrer le porno, mais plutôt le matériel qui l'accompagne», explique Shapiro. "Comme de faux profils avec la photo et le téléphone d'une fille." Il fait référence aux travailleuses du sexe à la recherche de clients, mais cela pourrait être tout ce qui n'est pas entièrement légal. "Ce n'est pas du porno, mais c'est le genre de chose que vous ne voulez pas regarder sur votre plateforme, non?" Un bon modérateur automatisé apprend des millions, voire des dizaines de millions, d'échantillons de contenu, ce qui peut vous faire gagner des tonnes d'heures de travail.

«Vous pouvez comparer cela à la différence entre un enfant et un adulte», déclare Matt Zeiler, PDG et fondateur de Clarifai, une startup de vision par ordinateur qui effectue ce type de filtrage d'images pour les entreprises clientes. «Je peux vous le dire avec certitude - il y a quelques mois, nous avons eu un bébé. Ils ne savent rien du monde, tout est nouveau pour eux. " Vous devez montrer à l'enfant (l'algorithme) beaucoup de choses pour qu'il comprenne quelque chose. «Des millions et des millions d'exemples. Mais en tant qu'adultes - lorsque nous avons créé autant de contexte sur le monde et compris son fonctionnement - nous pouvons apprendre quelque chose de nouveau à partir de quelques exemples. " (Oui, apprendre à une IA à filtrer le contenu pour adultes, c'est comme montrer à un enfant beaucoup de porno.) Des entreprises comme Clarifai se développent rapidement aujourd'hui. Ils ont une bonne base de données du monde, ils peuvent distinguer les chiens des chats, habillés de nus. L'entreprise de Zeiler utilise ses modèles pour former de nouveaux algorithmes pour ses clients - puisque le modèle original traitait beaucoup de données, les versions personnalisées ne nécessiteraient que de nouveaux ensembles de données pour fonctionner.

Cependant, il est difficile pour l'algorithme de bien faire les choses. Cela fonctionne bien avec un contenu manifestement pornographique; mais un classificateur pourrait marquer à tort une annonce de sous-vêtements comme interdite parce que l'image a plus de cuir que, par exemple, un bureau. (Avec des bikinis et des sous-vêtements, selon Zeiler, c'est très difficile). Cela signifie que les spécialistes du marketing doivent se concentrer sur ces cas de pointe dans leur travail, en donnant la priorité aux modèles difficiles à classer.

Quelle est la partie la plus difficile?

«Du porno anime», dit Zeiler. "La première version de notre détecteur de nudité n'utilisait pas de pornographie de dessins animés à des fins éducatives." Plusieurs fois, l'IA s'est trompée parce qu'elle ne reconnaissait pas le hentai. «Après avoir travaillé là-dessus pour le client, nous avons injecté une grande partie de ses données dans le modèle et avons considérablement amélioré la précision du filtre de dessin animé tout en maintenant la précision des vraies photographies», explique Zeiler.

La technologie qui a été enseignée pour détecter la pornographie peut également être utilisée pour d'autres choses. Les technologies derrière ce système sont remarquablement flexibles. C'est plus que des seins d'anime. Jigsaw d'Alphabet, par exemple, est largement utilisé comme modérateur automatique de commentaires dans un journal. Ce logiciel fonctionne de la même manière que les classificateurs d'images, sauf qu'il trie par toxicité plutôt que par nudité. (La toxicité des commentaires textuels est aussi difficile à déterminer que la pornographie en images.) Facebook utilise ce type de filtrage automatique pour détecter les messages suicidaires et les contenus liés au terrorisme, et a essayé d'utiliser cette technologie pour détecter les fausses nouvelles sur sa plateforme massive.

Tout cela dépend encore de la supervision humaine; nous maîtrisons mieux l'ambiguïté et le contexte ambigu. Zeiler dit qu'il ne pense pas que son produit ait pris le travail de qui que ce soit. Cela résout le problème de la mise à l'échelle d'Internet. Les humains continueront à entraîner l'IA en triant et en étiquetant le contenu afin que l'IA puisse le distinguer.

C'est l'avenir de la modération: des solutions personnalisées et clés en main fournies aux entreprises qui font tout leur métier en apprenant à des classificateurs de plus en plus avancés plus de données. Tout comme Stripe et Square proposent des solutions de paiement prêtes à l'emploi pour les entreprises qui ne souhaitent pas les traiter elles-mêmes, des startups comme Clarifai, Picnix et Lemay.ai feront de la modération en ligne.

Dan Shapiro de Lemay.ai est plein d'espoir. «Comme pour toute technologie, elle est encore en train d'être inventée. Donc je ne pense pas que nous céderons si nous échouons. " Mais l'IA pourra-t-elle un jour fonctionner de manière autonome sans surveillance humaine? Pas clair. «Il n'y a pas de petit homme dans une tabatière qui filtre chaque coup», dit-il. "Vous devez obtenir des données de partout pour y entraîner l'algorithme."

Zeiler, de son côté, pense qu'un jour, l'intelligence artificielle modérera tout à elle seule. Au final, le nombre d'interventions humaines sera réduit à zéro ou à un effort négligeable. Peu à peu, les efforts humains se transformeront en quelque chose que l'IA ne peut pas faire maintenant, comme le raisonnement de haut niveau, la conscience de soi - tout ce que les humains ont.

Reconnaître la pornographie en fait partie. L'identification est une tâche relativement triviale pour les humains, mais il est beaucoup plus difficile d'entraîner un algorithme à reconnaître les nuances. Déterminer le seuil auquel un filtre marque une image comme pornographique ou non pornographique est également une tâche difficile, en partie mathématique.

L'intelligence artificielle est un miroir imparfait de la façon dont nous voyons le monde, tout comme la pornographie est le reflet de ce qui se passe entre les personnes lorsqu'elles sont seules. Il y a du vrai là-dedans, mais il n'y a pas d'image complète.

Ilya Khel

Recommandé: