Qualità dei dati e intelligenza artificiale L’alleanza per il successo aziendale

La mancanza di dati affidabili rappresenta un limite per l’intelligenza artificiale, ma la relazione tra i dati e l’AI non è unidirezionale. Ecco come la qualità dei dati e l’intelligenza artificiale possono collaborare per creare la sinergia perfetta

Il dibattito sull’intelligenza artificiale e l’apprendimento automatico è in pieno fermento con posizioni molto polarizzate. Da una parte i pessimisti temono che la crescita dell’AI rappresenti una seria minaccia per il futuro dell’umanità, evocando scenari apocalittici alla Terminator. Dall’altra gli ottimisti sostengono che l’AI possa essere il salvatore dell’umanità, ovvero uno strumento vitale per aiutarci a individuare ed evitare problemi e disastri imminenti, spesso prima che ne siamo consapevoli.

La realtà, come sempre, si trova da qualche parte nel mezzo. Come qualsiasi nuovo insieme di tecnologie, l’AI ha il potenziale per dare vantaggi a tutti se viene applicata eticamente e intelligentemente. Una crescente raccolta di casi d’uso sta già cominciando a mostrare come l’AI possa individuare e contribuire a creare nuove opportunità e risolvere problemi in settori come Pubblica Amministrazione, Retail, Finance, Manufacturing, Travel e tanto altro. Ma se usata in modo errato o per scopi moralmente discutibili, come la diffusione di disinformazione politica, l’AI potrebbe causare danni intenzionali o non intenzionali. Quindi, come specialisti della gestione dei dati che cosa possiamo fare per contribuire a garantire che l’AI sia una forza positiva e non una forza negativa?

La connessione tra AI e qualità dei dati – Un modo chiave è riconoscere e promuovere il fatto che l’AI, come qualsiasi insieme di tecnologie che si basa sui dati, è valida solo nella misura in cui lo sono i dati che le vengono forniti. Per quanto attentamente siano costruiti e applicati gli algoritmi che guidano l’AI, produrranno inevitabilmente risultati falsi se i dati di origine non sono un vero riflesso della realtà che i dati sono destinati a rappresentare. In altre parole, l’AI dipende in maniera critica dalla qualità dei dati. Alimentare l’AI con dati inaccurati e incompleti inevitabilmente porta a generare risultati, decisioni e azioni che sono inaccurate, non affidabili, fuorvianti e potenzialmente pericolose.

Per utilizzare un esempio semplice, l’AI potrebbe essere incaricata di risolvere un puzzle. Dovrebbe essere introdotta alle regole di funzionamento di un puzzle, in particolare riconoscendo che un’immagine completa deve essere costruita dalle mille tessere del puzzle che le vengono presentate. Come farebbe chiunque, potrebbe iniziare identificando i quattro angoli e i restanti pezzi del telaio identificati da un lato dritto. Potrebbe quindi assemblare i pezzi per formare il telaio completo e progredire da lì verso il completamento. Se tutti i mille pezzi fossero presenti e corretti, il compito sarà realizzabile. Ma cosa succederebbe se alcuni pezzi del puzzle mancassero, alcuni pezzi fossero duplicati di altri e altri pezzi appartenessero a un puzzle completamente diverso? Improvvisamente il compito diventa molto più difficile e l’esito meno certo e affidabile. Un processo simile si applica anche ai dati. Se mancano pezzi di dati necessari, sono duplicati o non sono validi, l’AI potrebbe faticare a creare l’immagine finita prevista. Peggio ancora, potrebbe generare un’immagine completamente diversa.

Quindi, ottenere la corretta qualità dei dati è un “must have” per un’AI efficace. Tuttavia, questa non è la realtà per molte organizzazioni che stanno utilizzando o pensando di applicare l’AI. Un recente sondaggio di Capgemini rileva che per il 72% dei manager business e tech il principale ostacolo all’implementazione di AI e data analytics nelle loro aziende è rappresentato da dati frammentati e di scarsa qualità. E occorre sottolineare che questo non è solo un problema per l’AI o gli analytics. La scarsa qualità dei dati continua a danneggiare la profittabilità, l’efficienza, la produttività e le decisioni. Un sondaggio del 2023 condotto dall’Università di Drexel e da Precisely mette in evidenza che la scarsa qualità dei dati è “diffusa” nella maggior parte delle organizzazioni, con il 66% dei partecipanti che valutano la qualità dei loro dati come “media, bassa o molto bassa”.

Per individuare i dati di scarsa qualità, è fondamentale prestare attenzione a diversi indicatori. Uno dei segnali principali è rappresentato dai dati mancanti, ovvero quando i campi sono vuoti anziché contenere le informazioni rilevanti, come per esempio la data di nascita. Un altro indicatore critico riguarda i dati inaccurati, dove le informazioni memorizzate non rispecchiano la realtà, come per esempio il numero di prodotto errato o non valido. La presenza di dati duplicati costituisce un ulteriore segnale da considerare. Si verifica quando vi sono variazioni multiple degli stessi dati all’interno di una fonte dati, come nel caso di un cliente che compare più volte sotto record diversi in un database CRM.

Altrettanto importante è riconoscere dati incoerenti, ossia situazioni in cui le informazioni dovrebbero essere consistenti tra diverse fonti di dati, ma presentano variazioni, per esempio, tabelle diverse di codici di Paese utilizzate come dati di riferimento in varie applicazioni che dovrebbero identificare lo stesso Paese, quindi codici diversi possono identificare lo stesso Paese, o viceversa. Questo è di solito indicativo della mancanza di standard dati concordati.

La qualità dei dati come processo continuo – Considerato che questi problemi di data quality sono tristemente diffusi nella stragrande maggioranza delle aziende, alcuni sostengono che investire in intelligenza artificiale e machine learning è inutile e uno spreco di denaro finché questi problemi di qualità dei dati non vengono prima identificati e risolti. Ma si tratta di un errore, che fraintende la natura della qualità dei dati e come affrontarla. Il mondo cambia costantemente, quindi mantenere una buona qualità dei dati è un processo continuo, non una serie di sfide di pulizia dati isolate. La logica di ciò significherebbe che l’AI non verrà mai implementata e i suoi potenziali benefici non saranno mai realizzati.

Una soluzione chiara e diretta per affrontare questo problema è integrare il miglioramento della qualità dei dati come parte fondamentale di ogni progetto di intelligenza artificiale. Un passo cruciale in questa direzione è analizzare attentamente tutte le fonti dati destinate all’intelligenza artificiale, identificando e risolvendo eventuali problemi significativi di qualità dei dati prima di applicare l’intelligenza artificiale stessa. Questo approccio aumenta significativamente le probabilità di successo di un progetto di intelligenza artificiale.

Inoltre, la relazione tra AI e qualità dei dati non è a senso unico. Se la performance dell’intelligenza artificiale dipende dalla qualità dei dati, è interessante notare che l’AI può essere impiegata per affrontare e risolvere le problematiche legate alla qualità dei dati stessi. Molti vendor di software per la data quality se ne sono resi conto, e stanno già incorporando funzionalità di AI nei loro strumenti. L’AI può contribuire ad affrontare i problemi esistenti di qualità dei dati, prevenendo proattivamente futuri problemi. Nell’automatizzazione della raccolta dei dati, l’AI riduce la dipendenza dall’input manuale e gli errori inevitabili causati dalle attività umane. Nel caso della validazione dell’inserimento dei dati, l’AI può respingere i tentativi di inserire dati non conformi agli standard preimpostati, contribuendo a garantire la coerenza e l’accuratezza delle informazioni.

Attraverso le sue capacità di apprendimento, l’AI può sviluppare e applicare regole personalizzate, individuando dati anomali secondo criteri specifici. Inoltre, l’AI può analizzare le fonti dati per individuare record duplicati non intenzionali, offrendo la possibilità di associarli o unirli per migliorare la coerenza delle informazioni. Allo stesso modo, nel caso di record assenti, l’AI è in grado di dedurre e completare dati mancanti, sfruttando le sue capacità di ragionamento e talvolta accedendo a fonti dati esterne per ottenere informazioni supplementari. La scarsa qualità dei dati è effettivamente un nemico dell’AI, ma utilizzare approcci e capacità di AI per identificare e affrontare i problemi di qualità dei dati è un chiaro win-win. Una migliore qualità dei dati rende l’AI più efficace e utile e allo stesso tempo l’AI contribuisce a creare i dati migliori di cui ha bisogno per migliorare il suo valore di business. Sebbene comunemente vengano percepite come contrapposte, l’AI e la qualità dei dati possono e dovrebbero convergere in una collaborazione sinergica, diventando, di fatto, le migliori alleate per il successo aziendale.

Nigel Turner

Febbraio 2024

Qualità dei dati e intelligenza artificiale L’alleanza per il successo aziendale

Link utili:

Informazioni di contatto

Indirizzo

Telefono

Email