Meta-navigazione

Data labeling a opera di uomo e macchina

Data Labeling

Chi è più bravo? Uomo o macchina?


Molte aziende siedono su una montagna di dati non categorizzati. Tuttavia, il «data labeling» è importante per il funzionamento dell’intelligenza artificiale. Ma chi offre la migliore qualità dei dati? L’uomo o la macchina?


Testo: Adrienne Fichter, Immagini: © Keystone,




La digitalizzazione cambia il nostro mondo velocemente. I pessimisti avvertono a gran voce che i robot rimpiazzeranno la forza lavoro manuale, il servizio clientela in futuro sarà gestito da chatbot e assistenti virtuali, i veicoli autonomi diventeranno una minaccia per i taxisti. Ma il mondo non funziona così facilmente, non è tutto bianco o tutto nero. I modelli commerciali a base di dati creano anche nuove forme di occupazione, ad esempio l’ordinamento e la categorizzazione dei dati non strutturati.



Con un’indicizzazione corretta i dati diventano accessibili all’intelligenza artificiale.



Il nuovo lavoratore dell’industria digitale

Oggi molti dati non sono leggibili dall’intelligenza artificiale. Le ricerche di mercato indicano che soltanto il 20% dei dati aziendali è ordinato nelle macchine. Il restante 80% è costituito da dati non strutturati, che di conseguenza non possono essere elaborati in modo automatizzato. Così le aziende si ritrovano sedute su un tesoro di dati digitali, che spesso non sanno come sfruttare. Prendiamo ad esempio i documenti salvati in diversi tipi di file, le email o la corrispondenza scansionata. Questo immenso corpus di testi, ma anche il materiale audio e video, devono essere tradotti in metadati affinché l’intelligenza artificiale possa riconoscere se un’immagine contiene un cavallo o una mucca, quali termini sono utilizzati in una ripresa video, qual è l’argomento trattato in un articolo di giornale e quale sentimento esprime un tweet. La capacità di apprendimento del software dipende pertanto dai metadati.

Per il momento la preparazione dei dati è un compito svolto dall’uomo. Con l’associazione manuale si può raggiungere un’ottima qualità dei dati, spiega Marc Steffen, Head of Product Design dell’Artificial Intelligence & Machine Learning Group di Swisscom. Guru Banavar, responsabile del programma informatico Watson di IBM, diffonde un’idea radicale: i lavoratori che a causa dell’automatizzazione hanno perso il loro posto di lavoro, dovrebbero riqualificarsi come blue collar digitali, ossia come impiegati dell’industria dei dati. In futuro potranno così svolgere il «data labeling» e continuare a lavorare.




«Insegno a una macchina a riconoscere i tacchi alti in una foto»




La qualità dei dati è ancora migliore se a riconoscere e taggare correttamente i contenuti non sono soltanto singoli tecnici, ma migliaia di persone. I primi concetti di crowdsourcing hanno già preso piede sul mercato. Nuovi operatori come CrowdFlower o Mighty AI offrono tra l’altro il servizio di categorizzazione a opera di una community. Molti membri, quasi come «secondo lavoro», di tanto in tanto utilizzano un’app per smartphone per associare i temi a singole categorie. Nel video pubblicitario di Mighty AI, una delle collaboratrici che lavora sui dati spiega: «Insegno a una macchina a riconoscere i tacchi alti in una foto».

Tuttavia, la categorizzazione dei dati non può essere sempre affidata ad estranei. «A volte per associare i dati sono necessarie conoscenze specialistiche», spiega Steffen. «Inoltre, alcuni dati sono troppo sensibili per farli elaborare da persone esterne». Ciononostante il data labeling può essere svolto anche con il personale interno, a condizione che vengano offerti gli stimoli giusti. Non deve essere necessariamente il salario: «Per i collaboratori, fare qualcosa di buono con il data labeling può già essere una motivazione», spiega Steffen. Pensiamo ad esempio all’abbattimento delle barriere: con i dati strutturati si può insegnare all’intelligenza artificiale a descrivere un ambiente per i non vedenti. Oppure si può convertire il parlato in testo in tempo reale per i non udenti.

Il lavoro non deve essere ripetitivo. La chiave è la «gamification»: per lo sviluppo dei tool di labeling si punta sempre più all’aspetto ludico, grazie al quale il lavoro resta interessante per gli utenti. È importante evitare la monotonia, facendo svolgere agli utenti compiti molto diversi tra loro: lo stesso tool potrebbe svolgere diverse funzioni, dall’indicizzazione al riconoscimento vocale, fino alla lettura dei testi.

Esistono già software a supporto dei processi di pulizia dei dati. Tuttavia questi «mining tool» sono ancora subordinati all’uomo, in quanto gli esseri umani conoscono meglio il contesto specifico - Marc Steffen ne è convinto. La collaborazione tra uomo e macchina sarà determinante. Con una retribuzione equa si ottengono dati con una qualità che le macchine non potrebbero offrire, scrive una critica sviluppatrice web nel blog di Explosion AI, una società di data labeling. Anche Richard Socher, data scientist della società Salesforce, dà la priorità all’uomo in caso di dubbio. In un tweet scrive che non si dovrebbe sprecare troppo tempo nell’analisi dei problemi di apprendimento delle macchine, dedicandosi invece a inserire dati puliti, fornendo la formazione adeguata a un essere umano.



Per Richard Socher, data scientist di Salesforce, l’importante non è l’apprendimento delle macchine, ma la pulizia dei dati.




Data Labeling con Swisscom


Il centro di competenze di Swisscom per l’intelligenza artificiale applicata sviluppa tra l’altro tool di data labeling. Swisscom offre al cliente un servizio completo sulle possibili applicazioni dell’intelligenza artificiale e sullo svolgimento del progetto. Inoltre, i dati del cliente vengono valutati per poi sviluppare la soluzione idonea e procedere all’integrazione nel relativo sistema, il tutto con un tool di labeling creato su misura per il cliente. Così l’utente può categorizzare i dati e addestrare la sua applicazione di intelligenza artificiale.






Maggiori informazioni