Data Management. Dati perfetti per l’intelligenza artificiale

Per ridurre le possibilità di risultati errati, all’intelligenza artificiale servono dati “perfetti”, che però sono ovviamente impossibili. Ma la buona gestione dei dati può migliorarne la qualità

Negli ultimi anni, l’intelligenza artificiale (AI), nota anche come machine learning (ML), cognitive computing e così via, è diventata il Santo Graal per praticamente tutti i business. Secondo l’hype, rivoluzionerà le vendite con una segmentazione avanzata per l’acquisizione, la fidelizzazione e l’upselling dei clienti. Ottimizzerà i sistemi di produzione e le supply chain, anticipando problemi e opportunità. Guiderà i TIR e farà volare gli aerei. Converserà in modo sensato con le persone, sostituendo molti membri del personale di supporto. Diagnosticherà le malattie e fornirà trattamenti e farmaci personalizzati.

L’elenco potrebbe continuare all’infinito e, in molti casi, le prime applicazioni dell’AI in queste aree sono già sul mercato: la corsa in effetti è già iniziata. Secondo gli esperti del settore, se non si adotta l’AI in maniera aggressiva, si rimarrà indietro in un mercato trasformato digitalmente in cui i vincitori prendono tutto. Ma mi permetto di dissentire. È fondamentale fare qualche passo indietro per vedere il quadro più ampio, per vedere da dove proviene l’AI, come funziona veramente e dove non funziona, e soprattutto perché dipende interamente da un argomento cruciale che motiva chi si occupa di business intelligence (BI), data warehouse e data lake: il data management.

L’AI come traguardo finale dell’evoluzione della BI – “Artificial Unintelligence: how computers misunderstand the world” (“La non intelligenza artificiale, ovvero come i computer fraintendono il mondo”) di Meredith Broussard offre uno sguardo di prima mano sull’AI “vera”. Un po’ come la mia opera simile “Business unIntelligence”, quella di Broussard offre una visione alternativa e più sfumata rispetto a quella dei testi più standard. Il messaggio è che “il tecno-sciovinismo, ovvero la convinzione che la tecnologia sia sempre la soluzione”, induce molte persone altrimenti riflessive a “presumere che i computer ottengano sempre la soluzione giusta”. Di particolare interesse qui, è la sua conclusione spesso dichiarata che l’AI è completamente basata sui dati. Il risultato di qualsiasi processo di intelligenza artificiale dipende interamente dalla pertinenza, completezza e pulizia dei dati che vengono utilizzati per il training del processo stesso, e sui quali successivamente questo opera.

Tale conclusione non dovrebbe sorprendere chiunque provenga da un background di tipo data warehousing o data lake o BI: si sa fin dai primissimi giorni della BI che la qualità dei dati è la chiave per ottenere risultati validi. L’intelligenza artificiale è semplicemente l’ultima fase dell’evoluzione della BI. Questa relazione è meno ovvia perché i casi più strombazzati sembrano molto lontani dalla BI tradizionale. Tuttavia, prendiamo in considerazione i veicoli autonomi: il ruolo dell’AI è interamente di supporto al processo decisionale. Quale percorso pianificare? Quali cambi di percorso vanno fatti per il traffico? A che velocità guidare? Quali ostacoli sono fermi e quali si stanno muovendo? Come evitarli? In caso di conflitto, quali ostacoli (persone e biciclette, per esempio) sono più importanti da evitare? Naturalmente, queste non sono decisioni di business e molte di loro sono di natura operativa. Tuttavia, i parallelismi dovrebbero essere chiari. L’intelligenza artificiale si basa sull’automazione del processo decisionale. L’evoluzione del supporto al processo decisionale può essere suddivisa in quattro fasi:

1) Descrittiva: cosa è successo?
2) Diagnostica: perché è successo?
3) Predittiva: cosa potrebbe accadere? (questa è sempre più una considerazione operativa)
4) Prescrittiva: fai accadere alcuni risultati (automaticamente).

Questo approccio suggerisce inoltre che più le aziende seguono questo percorso evolutivo, più il valore aumenta, così come la complessità dello sforzo. Mentre le fasi precedenti sono fornite da strumenti di reporting e BI tradizionali, le fasi successive richiedono prima strumenti di data mining o analitici, e successivamente approcci AI e ML. Tuttavia, i confini tra queste categorie di strumenti sono molto vaghi. La funzione offerta dai moderni strumenti di supporto decisionale è più il risultato dello sviluppo storico del prodotto che dei confini di categoria ben definiti.

Questa classificazione e i costrutti similari non mostrano esplicitamente come cambiano e crescono anche i dati necessari nelle diverse fasi. È possibile pensare a una curva con fasi corrispondenti:
1) Predisposta: l’IT fornisce i dati che ha o può facilmente ottenere, si tratta dell’ETL di base (estrazione, trasformazione, loading);
2) Reattiva: al crescere delle esigenze di business, la data delivery comincia a essere difficoltosa, così vengono realizzati sistemi di delivery sempre più complessi e ad hoc, si tratta dei primi progetti di data mart e data lake;
3) Integrativa: l’IT integra un’ampia selezione di dati aziendali per facilitare e velocizzare la consegna del supporto decisionale, si tratta del data warehouse avanzato;
4) Adattiva: un’infrastruttura di delivery flessibile offre sia dati integrati sia nuovi, provenienti da molte fonti, tra cui l’Internet of Things, e questo richiede un’architettura dati completamente modernizzata. Quando l’IT segue questo percorso, la sua attenzione deve essere sempre più rivolta alla gestione e alla governance dei dati.

L’AI richiede dati sempre più perfetti – Considerato che l’AI è integrata sempre più a fondo nel processo decisionale, i tipi di decisioni prese diventano più complessi e i loro risultati hanno un impatto maggiore sulle persone coinvolte. Per esempio, l’apprendimento automatico è già utilizzato per implementare la cosiddetta ottimizzazione dei prezzi (perché l’ottimizzazione riguarda in realtà i profitti). La segmentazione dei clienti consente di offrire prezzi diversi per lo stesso articolo a diversi sottogruppi della popolazione, per testare la sensibilità dei prezzi. Gli studi dimostrano che i risultati spesso discriminano le minoranze o specifici sottogruppi della popolazione. Mentre si può sostenere che l’impatto delle piccole differenze di prezzo è minimo, le applicazioni di tecniche simili alla verifica delle domande di lavoro, all’accettazione o al rifiuto di proposte assicurative o alla stima di comportamenti fraudolenti – tutti usi attuali dell’AI – hanno implicazioni di lungo periodo. Sbagliare tali decisioni è immorale e indifendibile. Il problema di fondo è la qualità dei dati utilizzati nella formazione e nell’esecuzione dei modelli di apprendimento automatico. Può derivarne un’ampia gamma di problemi di distorsione (involontaria o meno), dati mancanti o valori errati. Il fatto fondamentale è che i livelli di qualità dei dati dipendono dall’applicazione. I dati raccolti per uno scopo potrebbero funzionare bene per quel caso d’uso ma potrebbero essere completamente inadeguati per l’addestramento di un algoritmo di AI. Le importanti variabili determinanti potrebbero non esistere nel set di dati, ma il machine learning troverà un insieme di variabili comprese che sono correlate, anche in assenza di effetti causali razionali. In effetti, l’intelligenza artificiale richiede dati “perfetti” per eliminare o addirittura ridurre al minimo le possibilità di previsioni o prescrizioni errate. Ma i dati perfetti sono, ovviamente, una richiesta impossibile per qualsiasi sistema IT.

La necessità della gestione dei dati – Sebbene la perfezione dei dati sia impossibile, si può certamente migliorare di molto la qualità dei dati sia nei sistemi esistenti sia in quelli nuovi. Il percorso passa attraverso una nuova e maniacale attenzione alla gestione e alla governance dei dati nell’intero ambiente IT. Ma questo non arriverà a buon mercato, in quanto richiede investimenti significativi sia di capitale sia di operazioni, in particolare nel personale, in termini di numeri e di competenze. Ma richiede anche un grado di supporto da parte del management esecutivo superiore a quello visto finora nella maggior parte delle aziende.

Siamo pronti a fare un tale investimento infrastrutturale nella gestione e nella governance dei dati parallelamente alla diffusione dell’AI? O siamo disposti a rischiare il danno reputazionale e finanziario derivante da alcuni risultati prevedibili, evitabili e non etici degli algoritmi di intelligenza artificiale?

Barry Devlin

Maggio 2020

Data Management. Dati perfetti per l’intelligenza artificiale

Link utili:

Informazioni di contatto

Indirizzo

Telefono

Email