Mike Ferguson

Novembre 2019

Come essere veramente data driven. L’importanza dell’architettura dati

Molte aziende si trovano a fare i conti con un eccesso di tecnologia, di silos, di basse velocità di sviluppo, di nessuna condivisione di metadati e in alcuni casi di soluzioni sbagliate per i carichi di lavoro sbagliati. Occorre un nuovo approccio agile per avere dati business ready

Negli ultimi anni, le pratiche di sviluppo software sono cambiate radicalmente. Sono finiti i vecchi sistemi stile batch per creare prodotti software monolitici con tutte le funzionalità integrate in un’unica enorme applicazione con una nuova versione ogni anno e mezzo. Oggi, abbiamo un nuovo approccio di sviluppo agile con software composto da componenti (i microservizi) in esecuzione in contenitori gestiti da tecnologie open-source come Kubernetes, e distribuiti in ambienti informatici serverless come il cloud. Solo guardando al mercato dei dati e degli analytics negli ultimi cinque anni, si è assistito a un’esplosione di nuovi software, compresi nuovi tipi di database, nuovi strumenti di gestione dei dati e degli strumenti di analisi. C’è stato un vero e proprio diluvio tecnologico. E molte aziende che acquistano software riescono a malapena a tenere il passo.

Architettura dati, sviluppo e delivery – Ci sono lezioni da imparare da ciò che è successo nel mondo del software, specialmente quando si applicano a un’aspirazione che spesso si sente dai manager: quella di voler diventare data driven, cioè essere guidati dai dati. Vogliono che il business sia guidato dagli insights derivanti dall’analisi dei dati. Il problema non è che vogliano essere data driven, ma che vogliano esserlo subito e in modo facile. Soprattutto ignorando che il volume dei dati sia in rapido aumento e che bisogna tenere conto di fonti e dati eterogenei distribuiti sia in locale sia su più cloud. Tanto che i manager approvano con urgenza gli investimenti nelle tecnologie cloud, gestione dati e machine learning. La questione è che con le business unit sottoposte a controlli della spesa, molte aziende hanno finito per acquistare più tecnologie sovrapposte, nella fretta di fornire valore senza necessariamente sapere quali carichi di lavoro fossero più adatti a quali tecnologie, e – soprattutto – prima di creare qualsiasi tipo di architettura dati in grado di fornire il valore di business desiderato. Il risultato è un eccesso di tecnologia, di silos, di basse velocità di sviluppo, di nessuna condivisione di metadati e in alcuni casi di tecnologie sbagliate per i carichi di lavoro sbagliati. L’uso di database di documenti NoSQL come data warehouse, per esempio, è solo una scelta sbagliata. Sarebbe molto meglio se le aziende progettassero prima l’architettura dati per diventare data driven e fornire il valore di business di cui hanno bisogno, e successivamente scegliere le tecnologie che possono operare insieme ed essere integrate, per dare vita a un’architettura dati end-to-end. Inoltre, se si osserva cosa è successo nel mercato del software, la domanda è: si potrebbe fare lo stesso con dati e analytics? In altre parole, potrebbe essere possibile creare un’architettura dati comune e uno sviluppo di dati e analytics basato su componenti, combinato con metodi di sviluppo e delivery continui, agili, a basso costo e più rapidi, in grado di portare a nuovi dati, nuovi analytics, nuovi insights e nuovo valore di business a ritmi rapidi? Potrebbe essere questo il modo di divenire data driven? La risposta secondo me è sì. Bisogna creare prodotti dati e risorse analitiche (per esempio modelli predittivi, modelli prescrittivi, report di BI, dashboard, storie, e altro) per i componenti che vanno assemblati per fornire valore. Bisognerebbe che il data driven diventi un processo continuo di sviluppo e delivery. Per fare questo, serve che le persone costruiscano dati e componenti analitici, mentre altri li consumano, li assemblano e li utilizzano per guidare il valore.

Ecco che cosa fare – Per essere data driven, le aziende devono stabilire un vocabolario di business condiviso di nomi e definizioni di dati per entità di dati logici. Questo è fondamentale non solo per essere in grado di costruire, fidarsi, condividere prodotti di dati riutilizzabili, ma anche per aiutare le persone a capire cosa significano i dati. Prima di tutto occorre utilizzare un software Common Data Fabric al posto di una modalità in cui chiunque utilizza strumenti diversi nei silos per preparare e analizzare i dati. Un approccio più solido è anche quello di razionalizzare e utilizzare un software Common Data Fabric in grado non solo di connettersi ad archivi di dati sia locali sia basati su cloud, ma anche di creare pipeline per preparare e analizzare i dati. Il secondo passo è una supply chain di dati multiuso, dove il fattore critico di successo dipende da come le aziende devono organizzarsi per diventare data driven. Ciò significa istituire una supply chain di dati a livello di intera azienda attraverso la quale realizzare prodotti dati “business ready” che possono essere pubblicati in un marketplace dei dati da cui gli utilizzatori possono cercare i dati. Una supply chain di dati a livello di intera azienda è simile a un processo di sviluppo continuo simile a quello della produzione manifatturiera. Il punto qui è realizzare prodotti dati affidabili, comunemente compresi e pronti per il business, che possano essere riutilizzati in più posti. Il vantaggio è che si possono risparmiare ai consumatori di informazioni considerevoli quantità di tempo perché non devono preparare da zero tutti i dati di cui potrebbero aver bisogno. Si creano invece prodotti o risorse dati già pronti, immediatamente adatti al consumo. Un esempio potrebbe essere rappresentato dai dati dei clienti, dei prodotti, dei dati degli ordini, e altro. Avere i dati pronti all’uso dovrebbe quindi abbreviare il time to value e ridurre i costi. È importante riconoscere il ruolo del data lake nella supply chain dei dati. Un data lake è troppo prezioso per essere limitato alla sola data science: deve essere multiuso e quindi può essere utilizzato per produrre risorse dati che aiutano a costruire dati master nei sistemi di master data management (MDM), data warehouse e dati necessari nella data science.

La necessità di pipeline dati e analytics nella supply chain dei dati – Lo sviluppo basato su componenti di pipeline dati è necessario per accelerare la delivery di dati business ready in una supply chain dati a livello di intera azienda. Inoltre, dovrebbe essere possibile aggiungere analisi e visualizzazioni a una pipeline anche se sviluppata in altri strumenti. Ciò significa che deve essere possibile aggiungere prodotti dati, analisi e visualizzazioni a un marketplace (o catalogo) per massimizzare la capacità di riutilizzo. In questo caso, il time to value si ridurrà a ogni nuovo progetto man mano che saranno disponibili più dati pronti per il business, analisi e altre realizzazioni.

Pubblicare dati attendibili e risorse analitiche come servizi – Un marketplace di dati aziendali è un catalogo all’interno dell’azienda in cui le persone possono andare a cercare dati business ready e risorse analitiche. Ciò significa che è possibile introdurre operazioni basate sulla pubblicazione e sulla sottoscrizione in una supply chain dati per accelerare ulteriormente la delivery. Questo perché i dati riutilizzabili e i componenti analitici danno a ogni progetto un balzo in avanti nella supply chain dati. Concentrandosi sul valore, una supply chain dati può essere utilizzata per creare dati business ready, analisi predittive e servizi decisionali precostruiti per automatizzare le azioni nell’impresa digitale. I consumatori di informazioni possono cercare e trovare dati e analisi pronti utilizzando il marketplace dei dati per aiutarli a fornire valore. È questa disponibilità di dati business ready riutilizzabili, analisi predittive e servizi decisionali precostruiti che consente il contributo di massa agli obiettivi di business comuni all’intera azienda. In altre parole, solo in questo modo si contribuisce alla costruzione di un modello di organizzazione veramente “business data driven” in grado di alimentarsi da solo. L’architettura dati è fondamentale per diventare un’azienda data driven: si parlerà di questo e di tutti gli altri argomenti correlati all’International Big Data Conference che si terrà a Roma il prossimo dicembre.

Mike Ferguson sarà il chairman della conferenza di Technology Transfer “Big Data International Conference” il 2-3 dicembre 2019 a Roma. Presenterà inoltre i seminari  “Progettare, costruire e gestire un Data Lake” il 4-5 dicembre 2019 e “Machine Learning e Advanced Analytics” il 12-13 dicembre 2019.