Giugno 2023

Information quality
Deduplicare i dati per una governance migliore

Dal data lake alla data governance, l’equilibrio tra agilità e controllo. Come ridurre immediatamente costi e tempi di delivery e manutenzione continua, riducendo la duplicazione dei dati in azienda

Qual è il problema più grande quando si parla di dati? Se ci fosse un singolo comportamento all’interno dell’azienda o dell’IT che si potesse cambiare da un giorno all’altro, quale potrebbe portare i maggiori benefici in termini di gestione e di governance dei dati? Nella mia esperienza, spesso le aziende hanno un approccio disfunzionale alla data quality. Un problema fondamentale è già nell’uso del termine “dati”, quando in realtà si parla di informazioni. L’attenzione ai dati – che spesso tendo a definire come informazioni in gran parte private del contesto – è semplicemente troppo limitata per affrontare adeguatamente le sfide che le aziende si trovano davanti quando adottano una strategia di trasformazione digitale. Ciononostante, il termine “dati” è utilizzato quasi sempre. E poiché i dati sono costituiti da numeri grezzi e testi nudi, le nuove copie vengono realizzate in modo rapido e semplice, senza alcuna considerazione del modo in cui i dati sono stati originariamente creati, del loro reale significato o del loro scopo, o del modo in cui la copia verrà mantenuta in futuro. Questa disfunzione è molto diffusa nel meraviglioso mondo dei fogli di calcolo. I dati perfettamente adeguati del sistema di business intelligence (BI) dell’azienda vengono copiati in un foglio di calcolo, manipolati e stravolti, pivotati e stuzzicati finché non ne emergono insight nuovi. Naturalmente, si tratta di un comportamento valido e spesso prezioso e innovativo, ma il vero problema è quello che succede dopo. I dati e i calcoli dello spreadsheet vengono salvati per un uso futuro, ma la copia dei dati si è irrigidita in termini di struttura e spesso anche di contenuto. I futuri cambiamenti nel sistema di BI, soprattutto nella struttura e nel significato, possono invalidare istantaneamente questo foglio di calcolo, le copie a valle su questo costruite e l’intero edificio decisionale che è stato creato intorno. Tutto questo, senza menzionare degli effetti di un eventuale errore di calcolo invisibile nello spreadsheet.

Sfide e opportunità nell’era del cloud e del data lake – Ma saliamo di livello. Il marketing vuole fare l’ultima analisi di ogni modello di clic sul sito web dell’azienda dal 2010. Il fornitore X ha la soluzione: una nuova applicazione di data warehouse in cloud che offre una maggiore velocità di interrogazione ed è finanziata via OpEx. Non c’è dubbio: il marketing è soddisfatto delle sue campagne innovative e anche il Finance approva il chiaro ritorno sull’investimento fornito dal nuovo approccio. Se non fosse che questa applicazione luminosa e brillante richiede la copia e la manutenzione continua di tutti i dati clickstream esistenti nel nuovo database. Ma chi si preoccupa di calcolare i costi di gestione di questo ulteriore e ingente sforzo? Ho sentito parlare da qualche parte di data lake? Mi domando quanti dati siano stati duplicati da altre fonti. Non possiamo nemmeno immaginare quanti (quasi) duplicati o copie corrotte degli stessi dati possano esistere all’interno del data lake. Non sarebbe più appropriato chiamarlo “palude”?

A proposito, se qualcuno sta pensando che il data lakehouse sia la soluzione a questo pantano di dati, è il caso di pensare all’equilibrio tra tecnologie smart e metodi di gestione dei dati nei materiali di marketing considerati. È troppo facile biasimare le persone di business che, spinte dalla passione per i risultati di business e ignare delle implicazioni della gestione dei dati, vogliono semplicemente avere subito le informazioni di cui hanno bisogno nella forma più utile possibile. L’IT, ovviamente, non sarebbe mai colpevole di un comportamento così miope. Ma davvero?

La verità è che spesso i reparti IT si comportano esattamente nello stesso modo. Le nuove applicazioni vengono costruite con i propri database indipendenti per ridurre le dipendenze tra i progetti, abbreviare

i tempi di delivery e così via, a prescindere dall’esistenza delle informazioni in altre parti dell’ambiente IT.

Anche l’architettura del data warehouse, ampiamente accettata, conferma esplicitamente la presenza di duplicazioni dei dati tra l’enterprise data warehouse (EDW) e i data mart correlati; e implicitamente sottintende che la copia (e la trasformazione) dei dati dall’ambiente operativo a quello informativo sia l’unico approccio per fornire supporto alle decisioni. Tuttavia, consentire la duplicazione non significa esigerla.

I progressi tecnologici compiuti dallo scorso millennio possono eliminare la necessità di fare una copia in molti casi. La nuova architettura data mesh accentua il problema affermando che i dati dovrebbero essere gestiti all’interno dei domini di business e che i repository centralizzati e le strutture di governance ostacolano l’innovazione e il cambiamento. Il risultato è che i dati vengono duplicati tra i vari domini di business, senza tenere conto delle incongruenze che possono emergere o dei costi che ne derivano.

Cinque cambiamenti da mettere in atto – Nella maggior parte delle aziende e dei reparti IT, non è necessaria un’analisi approfondita per ottenere una stima approssimativa dei costi di creazione e mantenimento di queste copie di dati. I costi dell’hardware e del software, soprattutto nel cloud, possono essere relativamente contenuti rispetto alle soluzioni tradizionali, anche se molti CFO iniziano a interrogarsi sulla curva di crescita di queste spese. Inoltre, spesso trascurati o sottovalutati, i costi del personale per la ricerca e l’analisi dei duplicati dei dati, l’individuazione delle incongruenze e l’intervento in caso di discrepanze crescono esponenzialmente con l’aumento delle copie dei dati. Da un punto di vista di business, i costi di gestione delle copie dei dati sono simili, ma i costi più significativi sono quelli delle opportunità perse o delle decisioni sbagliate quando i dati duplicati si discostano dalla verità del data warehouse centralizzato gestito e controllato correttamente.

Quindi, se si intende ridurre alcuni di questi costi, ecco qui di seguito cinque cambiamenti comportamentali che potrebbero essere attuati per migliorare la gestione e la governance dei dati, riducendo la duplicazione dei dati in azienda. Primo: istituire una politica di “lean data” in tutta l’organizzazione e istruire sia gli utenti business sia le persone IT sui suoi vantaggi. Sebbene sia inevitabile una certa duplicazione dei dati, questa politica garantisce che il punto di partenza di ogni soluzione sia la risorsa dati esistente. Secondo: rivedere i data mart esistenti con l’obiettivo di combinare i mart con contenuti simili o di assorbirli nuovamente nell’EDW. I miglioramenti delle performance del database rispetto alla definizione originaria dei mart possono consentire le stesse soluzioni senza duplicare i dati. Terzo: definire e implementare una nuova politica relativa all’uso o al riutilizzo continuo dei fogli di calcolo. Quando lo stesso foglio di calcolo è stato utilizzato in una riunione di gestione per tre volte di seguito, per esempio, dovrebbe essere valutato dall’IT per l’eventuale incorporazione della sua funzione nel sistema di BI standard.

Quarto: valutare le nuove tecnologie di database per vedere se la potenza aggiuntiva che offrono può consentire una riduzione significativa del livello di duplicazione dei dati nell’ambiente di data warehouse.

Cinque: applicare tecniche formali di governance e di gestione al data lake, on-premise e/o nel cloud, per scoprire come i risparmi derivanti da uno storge dati a basso costo siano più che consumati nell’analisi successiva e nella correzione di problemi evitabili di coerenza dei dati.

La deduplicazione dei dati rappresenta il primo passo indispensabile per ottenere informazioni di qualità, con evidenti vantaggi per l’organizzazione. Tuttavia, risulta sorprendente la riluttanza di molte aziende ad affrontare tale fase iniziale quando intraprendono una strategia di trasformazione digitale, considerando che l’accesso a informazioni di massima qualità costituisce il presupposto fondamentale per il successo di tale trasformazione.