Recherches
L'API Perspective résulte de travaux de recherche collaborative qui visent à explorer le machine learning en tant qu'outil d'amélioration des discussions en ligne
L'API Perspective est issue des travaux de recherche collaborative menés par Jigsaw et l'équipe Google en charge des technologies de lutte contre les abus pour explorer le machine learning en tant qu'outil d'amélioration des discussions en ligne. Cette équipe publie régulièrement des ensembles de données, des recherches universitaires et du code Open Source afin de toujours favoriser la transparence et l'innovation dans le domaine du traitement du langage naturel et du machine learning.
S'assurer que les conversations en ligne restent saines constitue un défi considérable, et nous savons que nous ne pouvons pas le relever seuls. Pour favoriser la recherche universitaire et sectorielle dans ce domaine, nous créons des ensembles de données publics dès que nous en avons l'occasion.
Concours public Kaggle, basé sur environ deux millions de commentaires de la plate-forme Civil Comments, qui a fermé en 2017. Les données sont annotées par rapport à leur toxicité, leur sous-type de toxicité et à la mention d'une identité, ce qui permet d'évaluer les biais inconscients dès lors qu'une identité est mentionnée. Consultez la page Kaggle ainsi que notre article universitaire Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification pour obtenir une description détaillée de la source de données et du schéma d'annotation. Cet ensemble de données est également disponible dans les ensembles de données TensorFlow.
Concours public Kaggle, basé sur un ensemble de données issu du crowdsourcing comprenant quatre sous-types de toxicité et environ 160 000 commentaires étiquetés manuellement provenant des pages de discussion Wikipédia. Les annotations étiquetées ont été fournies par 5 000 contributeurs en crowdsourcing, à qui l'on a demandé d'évaluer des commentaires laissés sur Wikipédia en fonction de leur toxicité. Cet ensemble de données est également disponible dans le dépôt Figshare sur les annotations manuelles de la toxicité dans les pages de discussion Wikipédia.
Concours public Kaggle qui met au défi les participants d'utiliser les données des deux concours Kaggle précédents pour créer un modèle multilingue de la toxicité.
100 000 commentaires provenant de Wikipédia, comportant chacun 10 annotations rédigées par les 4 000 annotateurs ayant contribué au projet. Chaque annotation du commentaire indique si l'annotateur considère le commentaire comme une attaque personnelle ou non.
Annotations automatiques de tous les commentaires laissés sur les pages de discussion Wikipédia en anglais de 2001 à 2015, soit environ 95 millions de commentaires, pour permettre une analyse de données à grande échelle.
Ensemble de 12 000 commentaires sur l'actualité annotés pour leur contribution positive à des conversations en ligne. Il s'agit d'une collaboration entre l'université Simon Fraser et Jigsaw, à paraître prochainement dans un numéro spécial de First Monday consacré aux propos injurieux en ligne.
Ensemble de 44 000 commentaires annotés pour leur caractère toxique se déclinant en diverses nuances subtiles, telles que le sarcasme, l'antagonisme et la condescendance. Issu d'une collaboration entre l'université d'Oxford et Jigsaw, cet ensemble de données a été publié lors de l'atelier Workshop on Online Abuse and Harms.
Un ensemble de données issu du concours Kaggle sur les biais inconscients constitue la base d'un ensemble de données contextuel annoté par des évaluateurs qui pouvaient voir le commentaire précédent, lors d'une étude mesurant l'importance du contexte pour la modération. Cette collaboration entre Athens University of Economics and Business et Jigsaw a été présentée lors de la conférence ACL 2020.
Nos dépôts Open Source incluent de nombreux exemples d'utilisation de Perspective, allant d'outils complets à des versions de démonstration expérimentales, ainsi que des exemples d'outils que nous exploitons pour créer nos modèles de machine learning.
Outils créés à l'aide de Perspective
Outil de modération permettant de faciliter le processus d'examen manuel grâce à des modèles de machine learning (utilisé par le New York Times).
Code qui permet de créer une expérience de rédaction dans laquelle les auteurs reçoivent des commentaires en cours de saisie. Nous avons utilisé ce code dans notre version de démonstration publique de l'API Perspective, mais le dépôt du code comprend de nombreuses fonctionnalités supplémentaires et façons de créer d'autres expériences de rédaction de commentaires.
Extension Chrome expérimentale permettant aux utilisateurs de personnaliser le degré de toxicité qu'ils acceptent de voir dans les commentaires sur Internet. Grâce à Perspective, Tune permet aux utilisateurs de régler le "volume" des conversations sur plusieurs plates-formes populaires telles que YouTube, Facebook, Twitter, Reddit et Disqus. L'extension est disponible en téléchargement dans le Chrome Web Store.
Ensemble de concepts et de versions de démonstration conçus à l'aide de l'API Perspective.
Exemple de code permettant d'appeler Perspective
Bibliothèque cliente simple en JavaScript permettant d'appeler l'API Perspective.
Serveur proxy simple basé sur Express pouvant conserver vos clés API et appeler l'API Perspective.
Serveur proxy simple basé sur Express permettant de limiter l'accès à votre projet cloud sur l'API Perspective.
Exemple de code utilisant l'API Perspective avec Google Apps Script.
Outils de création de modèles
Notre dépôt d'outils permettant de mesurer et d'atténuer les biais inconscients dans nos modèles.
Travail issu d'une collaboration avec Wikimedia pour créer un corpus utile de conversations provenant des pages de discussion Wikipédia.
Exemple de code permettant d'entraîner des modèles de machine learning destinés aux textes
L'équipe chargée de l'API Perspective publie régulièrement des recherches sur des forums universitaires.
Démontre que l'identité de l'évaluateur joue un rôle pertinent d'un point de vue statistique dans la façon dont il perçoit la toxicité pour les annotations liées à l'identité, et compare les modèles entraînés sur les annotations de plusieurs groupes d'évaluateurs basés sur l'identité.
Présente un nouveau cadre permettant aux développeurs d'ensembles de données de documenter plus facilement et de manière transparente des points de décision clés à différentes étapes du pipeline de données de ML : formulation de la tâche, sélection des annotateurs, choix de la plate-forme et de l'infrastructure, et analyse, évaluation, publication et maintenance de l'ensemble de données.
Montre que les modèles de langage obtenus à partir de modèles plus volumineux génèrent souvent des coûts de performances cachés, surtout en termes de biais liés à l'identité.
Présente un cadre de recherche pour mettre en évidence les besoins en termes de documentation des preuves et de signalement des femmes journalistes et activistes victimes de formes graves de harcèlement sur les plates-formes de réseaux sociaux, et valide ces besoins en concevant un prototype d'outil appelé Harassment Manager.
Présente le modèle de classification de texte multilingue Charformer utilisé dans l'API Perspective, ainsi que les techniques permettant de réduire les biais et d'optimiser les avantages de la classification multilingue. Ce modèle apporte des améliorations à tous les niveaux, en particulier pour les emoji et les données de changement de code couramment utilisés dans les contenus générés par les utilisateurs.
Développe les travaux ayant abouti à l'évaluation SemEval 2021 sur la détection des propos toxiques afin de présenter différentes techniques d'identification des propos associés aux commentaires évalués comme toxiques et de proposer une méthode pour suggérer d'autres contenus véhiculant les mêmes idées de manière courtoise, lorsque cela est possible.
Examine une série de publications sur le calcul humain en mettant l'accent sur les considérations éthiques liées au crowdsourcing, et expose les enjeux associés à l'identité des annotateurs, à la manière dont les expériences qu'ils ont vécues peuvent influer sur leurs annotations, et à la relation entre les annotateurs et les plates-formes de crowdsourcing. L'article présente également un ensemble concret de recommandations et de pistes de réflexion que les développeurs d'ensembles de données peuvent prendre en compte à différents stades du pipeline de données de ML.
Crée et publie un ensemble de données de posts avec deux types d'étiquettes de toxicité, selon que les annotateurs ont considéré les posts avec ceux qui les précédaient pour obtenir davantage de contexte ou qu'ils n'ont bénéficié d'aucun contexte supplémentaire. Ce travail a permis d'introduire l'estimation de la sensibilité au contexte, une nouvelle tâche qui vise à identifier les posts dont la toxicité perçue varie si le contexte est également pris en compte.
Présente de nouvelles métriques permettant l'étude rigoureuse de la modération de contenu en tant que processus de collaboration entre l'homme et l'IA, et montre que les modèles d'incertitude avancés offrent de nouvelles stratégies d'examen concerté améliorant les performances globales du système collaboratif associant un modérateur et un modèle.
Observe les incitations et les appels au harcèlement publiés par les membres de certaines communautés en ligne afin d'évaluer et d'analyser de manière globale diverses stratégies de harcèlement. L'objectif est, par exemple, d'élaborer une taxonomie afin de catégoriser les approches privilégiées pour les attaques coordonnées, et de suggérer des actions et des études qui pourraient être menées ultérieurement par les chercheurs, les plates-formes, les autorités et les groupes anti-harcèlement.
Décrit la tâche du concours SemEval-2021 visant à détecter les propos toxiques. Les participants devaient prédire les propos ayant entraîné l'étiquetage des posts correspondants comme étant toxiques. Cet article récapitule les résultats des participants et leurs principales stratégies pour ce concours.
Développe un nouveau modèle, CAE-T5, qui permet de suggérer des reformulations plus courtoises de commentaires toxiques en tenant compte des progrès récents des tâches de séquence à séquence dissociées.
Étudie la tâche d'étiquetage de la toxicité latente ou cachée dans les conversations en ligne, y compris l'introduction d'un ensemble de données catégorisant différents types de toxicité latente ainsi que l'évaluation de modèles pour cette tâche.
Présente un nouvel ensemble de données de commentaires annotés en raison de leur impact sur le bon déroulement d'une conversation, y compris des annotations correspondant à une nouvelle typologie de sous-attributs potentiellement malsains.
Montre que le contexte peut affecter l'évaluation humaine de la toxicité en amplifiant ou en atténuant la façon dont elle est perçue dans les posts, qu'un grand nombre d'annotations peuvent être inversées si les annotateurs ne disposent pas du contexte, mais que, contre toute attente, le contexte ne semble pas améliorer les performances des classificateurs de toxicité.
Présente le Constructive Comments Corpus, un nouvel ensemble de données conçu pour doter les communautés en ligne d'outils leur permettant d'améliorer la qualité de leurs discussions, tels qu'une taxonomie des sous-caractéristiques de la constructivité. Conjointement avec de nouveaux modèles de machine learning liés à la constructivité, cet ensemble de données ouvre la voie à des outils de modération qui visent à promouvoir les commentaires contribuant aux discussions et ne se contentent pas de filtrer les contenus indésirables.
Décrit nos contributions à deux des tâches partagées EVALITA (Evaluation of NLP and Speech Tools for Italian) 2020 qui reposent en partie sur la technologie utilisée par Perspective, et examine les types d'erreurs commises par notre système dans ces tâches.
Présente l'application de deux systèmes de référence fiables pour la détection de la toxicité, et évalue leur aptitude à identifier et catégoriser les propos choquants sur les réseaux sociaux.
Montre comment les techniques habituellement utilisées pour supprimer les biais des représentations vectorielles continues de mots peuvent en réalité augmenter les biais des modèles dans les tâches en aval, et propose de nouvelles méthodes de suppression des biais pour limiter ce problème.
Propose un cadre pour rendre compte de façon transparente du contexte, des cas d'utilisation et des caractéristiques de performances des modèles de machine learning dans différents domaines.
Présente une série de métriques indépendantes des seuils qui offrent une perception nuancée des biais inconscients dans la classification de texte. Pour ce faire, cette étude de cas examine les différentes variations possibles de la répartition des scores d'un classificateur selon les groupes désignés.
Traite des questions à examiner et des défis à relever dans le domaine de la recherche pour mettre en œuvre un processus de crowdsourcing permettant de détecter efficacement la toxicité en ligne, et présente une étude des travaux menés récemment pour répondre à ces problématiques.
Présente un nouvel outil de visualisation et de modération des données pour Wikipédia, qui repose sur l'API Perspective.
Présente la tâche consistant à prédire si une conversation donnée est sur le point d'être compromise par les actes antisociaux de l'un de ses participants, et montre qu'un modèle simple utilisant des caractéristiques conversationnelles et linguistiques peut obtenir des performances proches de celles d'un humain pour cette tâche.
Développe des méthodes pour mesurer les biais inconscients dans un classificateur de texte selon les termes apparaissant dans le texte, ainsi que des approches pour les atténuer. Les limites de ces méthodes sont exposées dans le document de suivi Limitations of Pinned AUC for Measuring Unintended Bias.
Met en correspondance les données de trace et les classificateurs de machine learning avec les informations fournies lors d'enquêtes par des utilisateurs sur leur comportement en ligne afin de démontrer leur corrélation.
Présente un aperçu unique de l'historique complet des conversations entre les contributeurs du site Wikipédia en anglais. Les états intermédiaires des conversations sont enregistrés, avec non seulement les commentaires et les réponses, mais également les modifications apportées, les suppressions et les restaurations.
Décrit comment le crowdsourcing et le machine learning peuvent être utilisés pour faire évoluer notre compréhension des attaques personnelles en ligne, et applique ces méthodes aux enjeux de Wikipedia.
Examine les approches qui utilisent le machine learning pour obscurcir le trafic réseau et contourner la censure.
Vous voulez en savoir plus ? Consultez notre site pour les développeurs afin d'obtenir davantage d'informations techniques.