Data Labeling par l’homme et la machine

Data Labeling

Qui est le plus capable: l’homme ou la machine?


De nombreuses entreprises croulent sous une montagne de données non catégorisées. Le «Data Labeling» est souvent nécessaire pour le fonctionnement de l’intelligence artificielle. Mais qui assure la meilleure qualité de données, l’homme ou la machine?


Texte: Adrienne Fichter, Illustrations: © Keystone,




La numérisation impose des changement extrêmement rapides à notre univers et les pessimistes font entendre leur voix: les robots rempliront les tâches manuelles, les agents conversationnels et assistants virtuels assisteront la clientèle de demain, les voitures autonomes seront une menace pour les chauffeurs de taxis. Mais le monde ne fonctionne pas de manière aussi simpliste. Les modèles commerciaux pilotés par les données créent en effet de nouvelles formes d’occupation: le tri et la catégorisation de données non structurées, par exemple.



Les données de l’IA sont accessibles avec une définition correcte des mots-clés.



Le nouveau travailleur industriel numérique

De nombreuses données ne sont tout simplement pas lisibles pour l’intelligence artificielle. Les analystes de marché considèrent que seulement 20 pour cent des données commerciales dans les entreprises sont classés par les machines. Les 80 pour cent restants ne sont pas structurés et ne peuvent donc pas être traités de manière automatique. Les entreprises reposent ainsi sur un trésor de données numériques qu’elles ne savent souvent pas exploiter. Ceci concerne par exemple les documents enregistrés dans différents types de données, les ventes par messagerie électronique ou la correspondance scannée. Cet immense corpus textuel, mais aussi les documents sonores et vidéo doivent donc être traduits en métadonnées. C'est le seul moyen pour qu’une intelligence artificielle soit en mesure d’identifier si une image représente un cheval ou une vache,quel thème est traité dans un article de journal et quel sentiment est exprimé dans un tweet. Les métadonnées sont donc indispensables pour les logiciels dotés de capacités d’apprentissage.

Le traitement des données est assuré jusqu’à nouvel ordre par les humains. Le classement manuel permet d’obtenir une bonne qualité de données, explique Marc Steffen, Head of Product Design du Artificial Intelligence & Machine Learning Group de Swisscom. Le chef du programme informatique Watson d’IBM, le gourou Banavar, propage une idée radicale: les salariés ayant perdu leur emploi à cause de l’automatisation doivent se reconvertir en cols bleus numériques, c’est-à-dire des ouvriers de l’industrie des données. Ils pourraient ainsi assurer le «Data Labeling» et auraient un emploi.




«J’enseigne à une machine à identifier des talons aiguilles sur une photo»




La qualité des données est encore meilleure si non seulement quelques spécialistes mais aussi des milliers de personnes identifient et taguent correctement les contenus. Les premiers concepts de production participative ont déjà fait leur apparition sur le marché. De nouveaux acteurs comme CrowdFlower ou Mighty AI assurent par exemple un service de catégorisation par une Community. Différents membres classent pratiquement «à temps partiel» des thèmes à l’aide d’application sur smartphone dans différentes catégories, entre deux activités et en déplacement. L’une des ouvrières des donnée dans la vidéo promotionnelle Mighty AI: «J’enseigne à une machine à identifier des talons aiguilles sur une photo».

La catégorisation des personnes ne peut pas être confiée entièrement à des personnes tierces. «Il est nécessaire de faire appel en partie à une expertise pour l’identification des données», explique Steffen. «Il arrive par ailleurs que certaines données soient trop sensibles pour permettre à des personnes extérieures de travailler dessus.» Le Data Labeling reste cependant possible, y compris avec des collaborateurs internes, tant qu’il y a de véritables incitations. Cela ne doit pas nécessairement être le salaire. «Les collaborateurs peuvent trouver une motivation s’il y a des retombées positives dans le Data Labeling», explique Steffen. Pour l’accessibilité, par exemple: si des données structurées peuvent être utilisées pour enseigner à une intelligence artificielle à décrire l’environnement, ceci pourrait profiter aux aveugles. Ou aux malentendants, en transposant en temps réel la parole en texte.

Il n’est pas nécessaire que le travail soit répétitif. La clé s'appelle «gamification»: les développeurs ont une approche forttement ludique en utilisant leurs Labeling-Tools. Ceci préserve l’intérêt du travail pour les utilisateurs. L’important, c’est qu’il reste varié: le même outil pourrait ainsi couvrir différents domaines d’activités; de la création de mots-clés à la reconnaissance vocale en passant par la dictée de textes, les utilisateurs auraient à maîtriser des tâches extrêmement diverses.

Il existe déjà des logiciels prenant en charge les processus de nettoyage des données. Ces «Mining Tools» ne parviennent pas encore à égaler l’homme: celui-ci a une meilleure connaissance du contexte spécifique, Marc Steffen en est convaincu. Les interactions entre l’homme et la machine seront déterminantes. En mettant l’argent qu’il faut pour cela, on peut obtenir une qualité de données que les machines ne sont pas capables d’offrir: telle est l’analyse critique que fait une développeuse du Web dans le blog d’entreprise du fournisseur de Data Labeling Explosion AI. Richard Socher lui-même, scientifique des données dans l’entreprise Salesforce, privilégie l’homme en cas de doute. Il écrit dans un tweet qu’il ne faut pas perdre trop de temps dans l’analyse des problèmes de Machine Learning mais qu’il faut plutôt que les données soient de qualité. Ceci passe par la formation de l’homme.



Pour le scientifique des données de Salesforce Richard Socher, ce n’est pas le Machine Learning mais la qualité de la gestion des données qui doit primer.




Data Labeling avec Swisscom


Le centre de compétences Swisscom pour l’intelligence artificielle appliquée développe notamment des outils de Data Labeling. Swisscom propose aux clients un service complet sur les applications potentielles de l’IA et sur le déroulement de projet. Les données des clients sont évaluées en outre afin de développer la solution appropriée et de l’intégrer au sein du système concerné avec un outil de Labeling sur mesure pour le client. Ceci permet à l’utilisateur de catégoriser les données et de former son application d’IA.






En savoir plus sur ce thème