Recherches

L'API Perspective résulte de travaux de recherche collaborative qui visent à explorer l'IA en tant qu'outil d'amélioration des discussions en ligne

L'API Perspective est issue des travaux de recherche collaborative menés par Jigsaw et l'équipe Google en charge des technologies de lutte contre les abus pour explorer le machine learning en tant qu'outil d'amélioration des discussions en ligne. Cette équipe publie régulièrement des ensembles de données, des recherches universitaires et du code Open Source afin de toujours favoriser la transparence et l'innovation dans le domaine du traitement du langage naturel et du machine learning.

Ensembles de données publics
Code Open Source
Contributions aux recherches

S'assurer que les conversations en ligne restent saines constitue un défi considérable, et nous savons que nous ne pouvons pas le relever seuls. Pour favoriser la recherche universitaire et sectorielle dans ce domaine, nous créons des ensembles de données publics dès que nous en avons l'occasion.

Biais inconscients de Jigsaw dans le concours Kaggle sur la toxicité

Concours public Kaggle, basé sur environ deux millions de commentaires de la plate-forme Civil Comments, qui a fermé en 2017. Les données sont annotées par rapport à leur toxicité, leur sous-type de toxicité et à la mention d'une identité, ce qui permet d'évaluer les biais inconscients dès lors qu'une identité est mentionnée. Consultez la page Kaggle ainsi que notre article universitaire Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification pour obtenir une description détaillée de la source de données et du schéma d'annotation. Cet ensemble de données est également disponible dans les ensembles de données TensorFlow.

Concours Kaggle de classification des commentaires toxiques

Concours public Kaggle, basé sur un ensemble de données issu du crowdsourcing comprenant quatre sous-types de toxicité et environ 160 000 commentaires étiquetés manuellement provenant des pages de discussion Wikipédia. Les annotations étiquetées ont été fournies par 5 000 contributeurs en crowdsourcing, à qui l'on a demandé d'évaluer des commentaires laissés sur Wikipédia en fonction de leur toxicité. Cet ensemble de données est également disponible dans le dépôt Figshare sur les annotations manuelles de la toxicité dans les pages de discussion Wikipédia.

Concours Kaggle de classification des commentaires toxiques multilingues avec Jigsaw

Concours public Kaggle qui met au défi les participants d'utiliser les données des deux concours Kaggle précédents pour créer un modèle multilingue de la toxicité.

Annotations manuelles des attaques personnelles sur les pages de discussion Wikipédia

100 000 commentaires provenant de Wikipédia, comportant chacun 10 annotations rédigées par les 4 000 annotateurs ayant contribué au projet. Chaque annotation du commentaire indique si l'annotateur considère le commentaire comme une attaque personnelle ou non.

Annotations automatiques des pages de discussion Wikipédia

Annotations automatiques de tous les commentaires laissés sur les pages de discussion Wikipédia en anglais de 2001 à 2015, soit environ 95 millions de commentaires, pour permettre une analyse de données à grande échelle.

Corpus de commentaires constructifs

Ensemble de 12 000 commentaires sur l'actualité annotés pour leur contribution positive à des conversations en ligne. Il s'agit d'une collaboration entre l'université Simon Fraser et Jigsaw, à paraître prochainement dans un numéro spécial de First Monday consacré aux propos injurieux en ligne.

Corpus de commentaires toxiques

Ensemble de 44 000 commentaires annotés pour leur caractère toxique se déclinant en diverses nuances subtiles, telles que le sarcasme, l'antagonisme et la condescendance. Issu d'une collaboration entre l'université d'Oxford et Jigsaw, cet ensemble de données a été publié lors de l'atelier Workshop on Online Abuse and Harms.

Ensemble de données Toxicité en contexte

Un ensemble de données issu du concours Kaggle sur les biais inconscients constitue la base d'un ensemble de données contextuel annoté par des évaluateurs qui pouvaient voir le commentaire précédent, lors d'une étude mesurant l'importance du contexte pour la modération. Cette collaboration entre Athens University of Economics and Business et Jigsaw a été présentée lors de la conférence ACL 2020.

Nos dépôts Open Source incluent de nombreux exemples d'utilisation de Perspective, allant d'outils complets à des versions de démonstration expérimentales, ainsi que des exemples d'outils que nous exploitons pour créer nos modèles de machine learning.

Outils créés à l'aide de Perspective

Moderator

Outil de modération permettant de faciliter le processus d'examen manuel grâce à des modèles de machine learning (utilisé par le New York Times).

Expérience de rédaction

Code qui permet de créer une expérience de rédaction dans laquelle les auteurs reçoivent des commentaires en cours de saisie. Nous avons utilisé ce code dans notre version de démonstration publique de l'API Perspective, mais le dépôt du code comprend de nombreuses fonctionnalités supplémentaires et façons de créer d'autres expériences de rédaction de commentaires.

Tune

Extension Chrome expérimentale permettant aux utilisateurs de personnaliser le degré de toxicité qu'ils acceptent de voir dans les commentaires sur Internet. Grâce à Perspective, Tune permet aux utilisateurs de régler le "volume" des conversations sur plusieurs plates-formes populaires telles que YouTube, Facebook, Twitter, Reddit et Disqus. L'extension est disponible en téléchargement dans le Chrome Web Store.

Galerie d'astuces pour Perspective

Ensemble de concepts et de versions de démonstration conçus à l'aide de l'API Perspective.

Exemple de code permettant d'appeler Perspective

perspectiveapi-js-client

Bibliothèque cliente simple en JavaScript permettant d'appeler l'API Perspective.

perspectiveapi-simple-server

Serveur proxy simple basé sur Express pouvant conserver vos clés API et appeler l'API Perspective.

perspectiveapi-proxy

Serveur proxy simple basé sur Express permettant de limiter l'accès à votre projet cloud sur l'API Perspective.

perspectiveapi-appscript

Exemple de code utilisant l'API Perspective avec Google Apps Script.

Outils de création de modèles

Mesurer et atténuer les biais inconscients

Notre dépôt d'outils permettant de mesurer et d'atténuer les biais inconscients dans nos modèles.

WikiDetox

Travail issu d'une collaboration avec Wikimedia pour créer un corpus utile de conversations provenant des pages de discussion Wikipédia.

Modèles Conversation AI

Exemple de code permettant d'entraîner des modèles de machine learning destinés aux textes

L'équipe chargée de l'API Perspective publie régulièrement des recherches sur des forums universitaires.

Is Your Toxicity My Toxicity? Exploring the Impact of Rater Identity on Toxicity Annotation

Démontre que l'identité de l'évaluateur joue un rôle pertinent d'un point de vue statistique dans la façon dont il perçoit la toxicité pour les annotations liées à l'identité, et compare les modèles entraînés sur les annotations de plusieurs groupes d'évaluateurs basés sur l'identité.

CrowdWorkSheets: Accounting for Individual and Collective Identities Underlying Crowdsourced Dataset Annotation

Présente un nouveau cadre permettant aux développeurs d'ensembles de données de documenter plus facilement et de manière transparente des points de décision clés à différentes étapes du pipeline de données de ML : formulation de la tâche, sélection des annotateurs, choix de la plate-forme et de l'infrastructure, et analyse, évaluation, publication et maintenance de l'ensemble de données.

Lost in Distillation: A Case Study in Toxicity Modeling

Montre que les modèles de langage obtenus à partir de modèles plus volumineux génèrent souvent des coûts de performances cachés, surtout en termes de biais liés à l'identité.

"You have to prove the threat is real": Understanding the needs of Female Journalists and Activists to Document and Report Online Harassment

Présente un cadre de recherche pour mettre en évidence les besoins en termes de documentation des preuves et de signalement des femmes journalistes et activistes victimes de formes graves de harcèlement sur les plates-formes de réseaux sociaux, et valide ces besoins en concevant un prototype d'outil appelé Harassment Manager.

A New Generation of Perspective API: Efficient Multilingual Character-level Transformers

Présente le modèle de classification de texte multilingue Charformer utilisé dans l'API Perspective, ainsi que les techniques permettant de réduire les biais et d'optimiser les avantages de la classification multilingue. Ce modèle apporte des améliorations à tous les niveaux, en particulier pour les emoji et les données de changement de code couramment utilisés dans les contenus générés par les utilisateurs.

From the Detection of Toxic Spans in Online Discussions to the Analysis of Toxic-to-Civil Transfer

Développe les travaux ayant abouti à l'évaluation SemEval 2021 sur la détection des propos toxiques afin de présenter différentes techniques d'identification des propos associés aux commentaires évalués comme toxiques et de proposer une méthode pour suggérer d'autres contenus véhiculant les mêmes idées de manière courtoise, lorsque cela est possible.

Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation

Examine une série de publications sur le calcul humain en mettant l'accent sur les considérations éthiques liées au crowdsourcing, et expose les enjeux associés à l'identité des annotateurs, à la manière dont les expériences qu'ils ont vécues peuvent influer sur leurs annotations, et à la relation entre les annotateurs et les plates-formes de crowdsourcing. L'article présente également un ensemble concret de recommandations et de pistes de réflexion que les développeurs d'ensembles de données peuvent prendre en compte à différents stades du pipeline de données de ML.

Toxicity Detection can be Sensitive to the Conversational Context

Crée et publie un ensemble de données de posts avec deux types d'étiquettes de toxicité, selon que les annotateurs ont considéré les posts avec ceux qui les précédaient pour obtenir davantage de contexte ou qu'ils n'ont bénéficié d'aucun contexte supplémentaire. Ce travail a permis d'introduire l'estimation de la sensibilité au contexte, une nouvelle tâche qui vise à identifier les posts dont la toxicité perçue varie si le contexte est également pris en compte.

Measuring and Improving Model-Moderator Collaboration using Uncertainty Estimation

Présente de nouvelles métriques permettant l'étude rigoureuse de la modération de contenu en tant que processus de collaboration entre l'homme et l'IA, et montre que les modèles d'incertitude avancés offrent de nouvelles stratégies d'examen concerté améliorant les performances globales du système collaboratif associant un modérateur et un modèle.

A large-scale characterization of online incitements to harassment across platforms

Observe les incitations et les appels au harcèlement publiés par les membres de certaines communautés en ligne afin d'évaluer et d'analyser de manière globale diverses stratégies de harcèlement. L'objectif est, par exemple, d'élaborer une taxonomie afin de catégoriser les approches privilégiées pour les attaques coordonnées, et de suggérer des actions et des études qui pourraient être menées ultérieurement par les chercheurs, les plates-formes, les autorités et les groupes anti-harcèlement.

SemEval-2021 task 5: Toxic spans detection

Décrit la tâche du concours SemEval-2021 visant à détecter les propos toxiques. Les participants devaient prédire les propos ayant entraîné l'étiquetage des posts correspondants comme étant toxiques. Cet article récapitule les résultats des participants et leurs principales stratégies pour ce concours.

Civil rephrases of toxic texts with self-supervised transformers

Développe un nouveau modèle, CAE-T5, qui permet de suggérer des reformulations plus courtoises de commentaires toxiques en tenant compte des progrès récents des tâches de séquence à séquence dissociées.

Capturing Covertly Toxic Speech via Crowdsourcing

Étudie la tâche d'étiquetage de la toxicité latente ou cachée dans les conversations en ligne, y compris l'introduction d'un ensemble de données catégorisant différents types de toxicité latente ainsi que l'évaluation de modèles pour cette tâche.

Six attributes of unhealthy conversation

Présente un nouvel ensemble de données de commentaires annotés en raison de leur impact sur le bon déroulement d'une conversation, y compris des annotations correspondant à une nouvelle typologie de sous-attributs potentiellement malsains.

Toxicity detection: Does context really matter?

Montre que le contexte peut affecter l'évaluation humaine de la toxicité en amplifiant ou en atténuant la façon dont elle est perçue dans les posts, qu'un grand nombre d'annotations peuvent être inversées si les annotateurs ne disposent pas du contexte, mais que, contre toute attente, le contexte ne semble pas améliorer les performances des classificateurs de toxicité.

Classifying constructive comments

Présente le Constructive Comments Corpus, un nouvel ensemble de données conçu pour doter les communautés en ligne d'outils leur permettant d'améliorer la qualité de leurs discussions, tels qu'une taxonomie des sous-caractéristiques de la constructivité. Conjointement avec de nouveaux modèles de machine learning liés à la constructivité, cet ensemble de données ouvre la voie à des outils de modération qui visent à promouvoir les commentaires contribuant aux discussions et ne se contentent pas de filtrer les contenus indésirables.

Jigsaw@ AMI and HaSpeeDe2: Fine-Tuning a Pre-Trained Comment-Domain BERT Model

Décrit nos contributions à deux des tâches partagées EVALITA (Evaluation of NLP and Speech Tools for Italian) 2020 qui reposent en partie sur la technologie utilisée par Perspective, et examine les types d'erreurs commises par notre système dans ces tâches.

ConvAI at SemEval-2019 Task 6: Offensive Language Identification and Categorization with Perspective and BERT

Présente l'application de deux systèmes de référence fiables pour la détection de la toxicité, et évalue leur aptitude à identifier et catégoriser les propos choquants sur les réseaux sociaux.

Debiasing Embeddings for Reduced Gender Bias in Text Classification

Montre comment les techniques habituellement utilisées pour supprimer les biais des représentations vectorielles continues de mots peuvent en réalité augmenter les biais des modèles dans les tâches en aval, et propose de nouvelles méthodes de suppression des biais pour limiter ce problème.

Model Cards for Model Reporting

Propose un cadre pour rendre compte de façon transparente du contexte, des cas d'utilisation et des caractéristiques de performances des modèles de machine learning dans différents domaines.

Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification

Présente une série de métriques indépendantes des seuils qui offrent une perception nuancée des biais inconscients dans la classification de texte. Pour ce faire, cette étude de cas examine les différentes variations possibles de la répartition des scores d'un classificateur selon les groupes désignés.

Crowdsourcing Subjective Tasks: The Case Study of Understanding Toxicity in Online Discussions

Traite des questions à examiner et des défis à relever dans le domaine de la recherche pour mettre en œuvre un processus de crowdsourcing permettant de détecter efficacement la toxicité en ligne, et présente une étude des travaux menés récemment pour répondre à ces problématiques.

WikiDetox Visualization

Présente un nouvel outil de visualisation et de modération des données pour Wikipédia, qui repose sur l'API Perspective.

Conversations Gone Awry: Detecting Early Signs of Conversational Failure

Présente la tâche consistant à prédire si une conversation donnée est sur le point d'être compromise par les actes antisociaux de l'un de ses participants, et montre qu'un modèle simple utilisant des caractéristiques conversationnelles et linguistiques peut obtenir des performances proches de celles d'un humain pour cette tâche.

Measuring and Mitigating Unintended Bias in Text Classification

Développe des méthodes pour mesurer les biais inconscients dans un classificateur de texte selon les termes apparaissant dans le texte, ainsi que des approches pour les atténuer. Les limites de ces méthodes sont exposées dans le document de suivi Limitations of Pinned AUC for Measuring Unintended Bias.

Correlating Self-Report and Trace Data Measures of Incivility: A Proof of Concept

Met en correspondance les données de trace et les classificateurs de machine learning avec les informations fournies lors d'enquêtes par des utilisateurs sur leur comportement en ligne afin de démontrer leur corrélation.

WikiConv: A Corpus of the Complete Conversational History of a Large Online Collaborative Community

Présente un aperçu unique de l'historique complet des conversations entre les contributeurs du site Wikipédia en anglais. Les états intermédiaires des conversations sont enregistrés, avec non seulement les commentaires et les réponses, mais également les modifications apportées, les suppressions et les restaurations.

Ex Machina: Personal attacks seen at scale

Décrit comment le crowdsourcing et le machine learning peuvent être utilisés pour faire évoluer notre compréhension des attaques personnelles en ligne, et applique ces méthodes aux enjeux de Wikipedia.

Network Traffic Obfuscation and Automated Internet Censorship

Examine les approches qui utilisent le machine learning pour obscurcir le trafic réseau et contourner la censure.

Vous voulez en savoir plus ? Consultez notre site pour les développeurs afin d'obtenir davantage d'informations techniques.

Accéder au site pour les développeurs