Unbias bla bla à limiter les biais logés dans les corpus d’apprentissage initiaux.

Révéler les biais et les éviter n’est si pas évident car ils imprègnent profondément nos cultures, nos discours, nos images.

Nous sommes convaincus que les déclarations d’intention ne suffisent pas à garantir un impact neutre des machines du point de vue des discriminations.

C’est pourquoi nous intégrons des sciences humaines au coeur de nos conceptions de modèles et de corpus pour assurer une réflexivité nécessaire à l’identification et au traitement des biais.

Solutions

Des corpus d’apprentissage

crées en langue par des experts en sciences humaines (linguistes, sociologues, philologues) puis augmentés par un de nos modèles pour constituer un volume suffisant pour l’apprentissage. À termes, nous souhaitons développer des jeux de données sur d’autres signaux comme l’image.

Des modèles

qui visent à limiter un biais ou plusieurs biais dans un signal donné : premier modèle d’apprentissage machine automatique créé en langue française sur le biais du sexisme ordinaire, c’est à dire le sexisme qui ne veut pas ouverture hostile, mais qui se loge aux coeur de nos représentations et discours.

Des diagnostics d’éco-conception

et de risques discriminant sur les modèles existants.

Cas d’application

Implémenter notre modèle dans d’autres modèles pour limiter les biais que pourraient produire la machine (agents conversationnels, traduction automatique).

Entraîner des agents conversationnels à produire un langage qui pourraient être perçu comme discriminant, offensant.

Évaluer et améliorer les productions de discours sous l’angle des biais (traduction automatique, communicants corporate).

Nous avons créé un premier modèle en Natural Language Processing, mais notre ambition est de pouvoir traiter d’autres signaux comme l’image, le son.

Conviction

Il faut ouvrir la data science aux sciences humaines.

D’ou une équipe multidisciplinaire, fondée par une Anthropologue et un Data Scientist.

La machine apprend sur des corpus qui ne reflètent qu’une partie d’une société, qu’un type de discours. Il faut les nourrir de corpus plus diversifiés et emprunts de valeurs et de règles choisies et non subies => concevoir des modèles les plus économes possibles, créer des corpus où les minorités sont représentées (en langue, en genre, etc.).

Nous n’avons pas le pouvoir de diriger la machine au cœur de son fonctionnement, mais nous maîtrisons les lois de sa conception.

C’est en produisant des signaux hautement qualitatifs et différenciés que la machine progressera de manière responsable.

Soutiens