Novembre 2020
Upcoming events by this speaker:
12 nov – 13 nov 2020 Online live streaming:
Progettare, costruire e gestire un Multi-purpose Data Lake
01 dic – 02 dic 2020 Online live streaming:
Machine Learning e Advanced Analytics
Real-time enterprise, come industrializzare i dati e l’intelligenza artificiale
Negli ultimi anni, i dati e gli analytics sono diventati una priorità assoluta anche a livello di Consiglio d’amministrazione. L’intelligenza artificiale è oggi pane quotidiano ovunque nel mondo del business e viene considerata da molti stakeholder come un fattore chiave per il raggiungimento degli obiettivi strategici. Questo è particolarmente vero per quanto riguarda il miglioramento della customer experience, in quanto le aziende cercano di mantenere i clienti soddisfatti e aumentare il loro valore in un mondo in cui il passaggio a un concorrente con il semplice tocco dello schermo di un telefono cellulare è diventato sempre più comune. L’intelligenza artificiale viene anche utilizzata attivamente per ottimizzare e automatizzare vari aspetti delle operazioni di business, allo scopo di ridurre i costi.
La quantità di denaro che gli stakeholder stanno investendo in dati e in intelligenza artificiale continua a crescere, e riguarda sempre più il mondo del cloud invece che quello dei data center, dove le aziende possono essere operative rapidamente, praticamente senza alcuna spesa in conto capitale.
Tuttavia, nonostante questi investimenti, i problemi non mancano. Per esempio, lo scenario dei dati è diventato più complesso. Quantità sempre maggiori di dati entrano in azienda, e vengono memorizzati su molteplici tipologie di data store nel data center, in più cloud e persino a livello periferico su piattaforme e dispositivi IoT. Inoltre, il denaro investito viene spesso distribuito ai responsabili dei diversi dipartimenti aziendali che hanno acquistato i propri strumenti per implementare lo sviluppo di analytics nei rispettivi business. Il risultato è che molti strumenti diversi sono ora in uso in tutta l’azienda per connettersi ai data store, per preparare e integrare tali dati e per supportare i data scientist nello sviluppo di modelli di machine learning.
Due problemi da affrontare
Il risultato di tutta questa attività è che, sebbene si stiano compiendo progressi, stanno emergendo due problemi principali. Il primo viene spesso definito “proliferazione dei dati”. I dati sono ormai distribuiti, e questo li rende più difficili da trovare, da governare e da integrare. Eppure, l’aspettativa è che le persone debbano solo sapere dove si trovano, quando è ormai ovvio che non è così. Inoltre, in passato, la governance dei dati è stata spesso ignorata oppure aveva una bassa priorità, mentre oggi le persone stanno iniziando a rendersi conto che se non sanno dove trovare i dati e se i dati non sono attendibili, non lo saranno neanche le analisi. Il secondo problema è che, sebbene siano in corso molti investimenti e attività nell’intelligenza artificiale, lo sviluppo di modelli di apprendimento automatico, utilizzando molti strumenti diversi acquistati da diversi reparti aziendali, ha portato a un ambiente AI frammentato che non è integrato. Inoltre, la velocità con cui stanno emergendo nuovi algoritmi nella data science ha fatto sì che alcune tecnologie utilizzate nel business siano diventate di breve durata.
Pertanto, non solo molte aziende stanno affrontando il problema dell’approccio frammentato alla data science, ma vi sono anche molti algoritmi, librerie di codici e versioni di codice diversi in uso su molteplici strumenti, che per di più non sono particolarmente ben gestiti. Lasciato solo, questo tipo di self-service disponibile a tutti può alla fine portare al caos e a una sostanziale mancanza di fiducia nei dati. Ma soprattutto può diventare un vero ostacolo per il percorso verso un modello operativo robusto e agile per la realizzazione di dati e analisi di alto valore. In alcuni casi, la mancanza di fiducia nei dati può diventare così grave da bloccare la messa in produzione di modelli di machine learning addestrati, oppure rallentarla così tanto che viene utilizzata pochissimo per generare nuovo valore di business. Inoltre, la maggior parte dei data scientist si concentra sullo sviluppo di modelli e non sulla loro messa in produzione.
Questa combinazione di problemi può portare al fallimento del progetto, con gli stakeholder di business sempre più frustrati per la mancanza di ritorno sull’investimento. Nel mio “4th Industrial Revolution Survey Report of 500 enterprises”, realizzato per la Big Data Conference di Londra del novembre 2019, emerge abbastanza chiaramente che la qualità dei dati, la governance dei dati e gli strumenti dei dati hanno una priorità più alta rispetto agli analytics. Il 41,2% delle aziende intervistate ha affermato che la qualità dei dati era la priorità numero uno, seguita dalla necessità di stabilire una governance dei dati (37,8%) e dagli strumenti per i dati (35%). Anche le competenze in materia di dati e la produttività sono state ritenute importanti. Inoltre, la tecnologia top che le aziende hanno dichiarato di voler utilizzare per ottenere una base più solida è stata quella dei data lake (42,5%) seguita da analisi predittive e dai database in-memory.
Progettare, costruire e gestire
Ma quindi cosa bisogna fare per risolvere questi problemi? – Come si può fare per unire progetti indipendenti su più business unit? Come si fa a scoprire dove si trovano i dati e a gestirli per consentire all’intelligenza artificiale di avere più successo? Come si industrializza tutto questo?
Ecco la lista delle cose da fare:
- Creare una strategia AI per il massimo successo di business.
- Abilitare una governance dei dati basata sul valore in un panorama di dati distribuiti.
- Automatizzare la governance dei dati mediante intelligenza artificiale e servizi di governance dei dati.
- Integrare il cloud nell’architettura dei dati.
- Organizzare il data lake per evitare il caos dei dati.
- Aumentare il passaggio verso lo streaming di dati in tempo reale.
- Industrializzare e automatizzare l’impiego dei modelli e lo sviluppo di pipeline utilizzando Enterprise MLOps e DataOps.
- Muoversi verso lo sviluppo basato su componenti di pipeline di dati e data warehouse.
- Integrare il data lake e il data warehouse sia on premise sia nel cloud.
- Creare una piattaforma di dati dei clienti per migliorare la customer experience utilizzando i dati e l’intelligenza artificiale.
- Passare a un’impresa ad autoapprendimento continuo utilizzando l’AI di nuova generazione.