Data Labeling durch Mensch und Maschine

Data Labeling

Wer kann es besser: Mensch oder Maschine?


Viele Unternehmen sitzen auf einem Berg von nicht kategorisierten Daten. Das «Data Labeling» ist aber wichtig für das Funktionieren von künstlicher Intelligenz. Doch wer schafft die bessere Datenqualität – der Mensch oder die Maschine?


Text: Adrienne Fichter, Bilder: © Keystone,




Die Digitalisierung verändert unsere Welt rasant und die Schwarzmaler warnen lautstark: Roboter werden manuelle Arbeitskräfte ersetzen, Chatbots und virtuelle Assistenten werden die Kundenbetreuer von morgen, autonome Autos werden zur Bedrohung für Taxifahrer. Doch ganz so schwarz-weiss simpel funktioniert die Welt nicht. Denn die datengetriebenen Geschäftsmodelle schaffen auch neue Beschäftigungsformen: Zum Beispiel das Sortieren und Kategorisieren unstrukturierter Daten.



Mit einer richtigen Verschlagwortung werden Daten der KI zugänglich.



Der neue digitale Industriearbeiter

Viele Daten sind heute schlichtweg nicht lesbar für künstliche Intelligenz. Marktforscher gehen davon aus, dass nur 20 Prozent der Geschäftsdaten in Unternehmen von Maschinen geordnet sind. Die übrigen 80 Prozent sind unstrukturiert und können folglich nicht automatisiert verarbeitet werden. Somit sitzen Unternehmen auf einem Schatz digitaler Daten, den sie oft nicht zu heben wissen. Beispiele dafür sind in verschiedenen Dateitypen gespeicherte Dokumente, E-Mail-Verläufe oder gescannte Korrespondenz. Dieser immense Textkorpus, aber auch das Ton- und Bewegtbildmaterial, gilt es, in Metadaten zu übersetzen. Nur so kann eine künstliche Intelligenz etwa erkennen, ob sich auf einem Bild ein Pferd oder eine Kuh befindet, welche Begriffe in einer Audioaufnahme verwendet werden, welches Thema in einem Zeitungsartikel aufgegriffen und welches Gefühl in einem Tweet ausgedrückt wird. Für eine lernfähige Software sind Metadaten daher unerlässlich.

Die Aufbereitung der Daten wird bis auf weiteres von Menschen erledigt. Mit der manuellen Zuordnung könne eine gute Datenqualität erreicht werden, sagt Marc Steffen, Head of Product Design der Artificial Intelligence & Machine Learning Group von Swisscom. Der Chef des Computerprogramms Watson von IBM, Guru Banavar, propagiert dabei eine radikale Idee: Arbeitnehmer, die aufgrund der Automatisierung ihre Arbeitsstelle verloren haben, sollen sich zum digitalen Blue-Collar-Arbeiter, also zum Datenindustriearbeiter umschulen lassen. So könnten sie künftig das «Data Labeling» vornehmen – und wären weiter beschäftigt.




«Ich bringe einer Maschine bei, High Heels auf einem Foto zu erkennen»




Noch besser fällt die Datenqualität aus, wenn nicht einzelne Fachkräfte, sondern gleich Tausende von Personen Inhalte richtig erkennen und vertaggen würden. Erste Crowdsourcing-Konzepte haben auf dem Markt bereits Fuss gefasst. Neue Anbieter wie CrowdFlower oder Mighty AI bieten unter anderem die Kategorisierung durch eine Community als Service an. Verschiedene Mitglieder ordnen quasi «im Nebenjob» Themen via Smartphone-App einzelnen Kategorien zu, zwischendurch und unterwegs. Im Werbevideo von Mighty AI erzählt eine der Datenarbeiterinnen: «Ich bringe einer Maschine bei, High Heels auf einem Foto zu erkennen.»

Die Datenkategorisierung kann man aber nicht in allen Fällen Aussenstehenden überlassen. «Teilweise ist für die Kennzeichnung der Daten Fachwissen erforderlich», erklärt Steffen. «Auch sind manche Daten zu sensibel, um Externe daran arbeiten zu lassen.» Trotzdem ist Data Labeling gut möglich, auch mit internen Mitarbeitenden – solange die richtigen Anreize geboten werden. Das muss nicht unbedingt der Lohn sein: «Für Mitarbeitende kann es nur schon eine Motivation sein, wenn Sie mit Data Labeling Gutes bewirken», erklärt Steffen. Etwa für die Barrierefreiheit: Wenn mit strukturierten Daten einer künstlichen Intelligenz beigebracht werden kann, die Umgebung zu beschreiben, könnten Blinde davon profitieren. Oder Schwerhörige, wenn Gesprochenes in Echtzeit in Text umgewandelt wird.

Repetitiv muss die Arbeit auch nicht sein. Der Schlüssel lautet «Gamification»: Entwickler verfolgen bei ihren Labeling-Tools verstärkt einen spielerischen Ansatz. Dadurch bleibt die Arbeit für Anwender interessant. Wichtig ist dabei Abwechslung: So könnte dasselbe Tool verschiedene Aufgabenbereiche abdecken – von der Verschlagwortung über die Stimmungserkennung bis zum Vorsprechen von Texten hätten Anwender ganz unterschiedliche Aufgaben zu bewältigen.

Mittlerweile gibt es auch schon Software, die Datenbereinigungsprozesse unterstützt. Diese «Mining Tools» sind dem Menschen aber noch unterlegen: Menschen kennen den spezifischen Kontext besser, davon ist Marc Steffen überzeugt. Das Zusammenspiel zwischen Mensch und Maschine werde massgebend sein. Bei einer anständigen Bezahlung erhalte man eine Datenqualität, die Maschinen gar nicht bieten können, schreibt eine kritische Web-Entwicklerin im Unternehmensblog des Data Labeling-Anbieters Explosion AI. Und auch Richard Socher, Datenwissenschaftler beim Unternehmen Salesforce, gibt im Zweifelsfall Menschen den Vorzug. In einem Tweet schreibt er, man solle nicht zu viel Zeit in die Analyse von Machine Learning-Problemen verschwenden, sondern stattdessen für saubere Daten sorgen. Indem man dafür einen Menschen ausbildet.



Für Salesforce-Datenwissenschaftler Richard Socher steht nicht Machine Learning, sondern saubere Datenhaltung im Vordergrund.




Data Labeling mit Swisscom


Das Swisscom Kompetenzzentrum für angewandte Artificial Intelligence entwickelt unter anderem Data-Labeling-Tools. Als Full Service berät Swisscom den Kunden zu möglichen KI-Anwendungen und zum Projektablauf. Darüber hinaus werden Kundendaten ausgewertet, um daraufhin die passende Lösung zu entwickeln und ins jeweilige System zu integrieren – mitsamt einem speziell auf den Kunden zugeschnittenen Labeling-Tool. So kann der Anwender Daten kategorisieren und seine KI-Anwendung trainieren.






Mehr zum Thema