I Big Data forniscono il contesto e la ricchezza predittiva attorno alle transazioni di business Avere dati coerenti e di qualità resta fondamentale per il processo decisionale
Tornando indietro al 1986, con alcuni colleghi in IBM avevamo definito la prima architettura di data warehouse per gestire le vendite e le consegne in Europa dei mainframe System/370 e dei minicomputer System/38 (chi è in grado di riconoscere questi nomi è probabilmente un po’ oltre il trentesimo compleanno!), per poi descriverne l’architettura nel 1988 sull’IBM Systems Journal. Nel frattempo, il mondo è cambiato molto: basterebbe ricordare solo i costi e le dimensioni dei computer appena menzionati, oppure pensare a come un PC con sistema operativo DOS 3.3 su Intel 80286 e con dischi da 20 Mb era considerato all’epoca lo stato dell’arte, mentre gli smartphone di oggi sono più potenti rispetto ai mainframe di cui sopra. Eppure, l’architettura del data warehouse è cambiata davvero poco nello stesso periodo di tempo. Più che dei cambiamenti nelle tecnologie, forse può essere più interessante il nuovo scenario emergente dei dati: il data warehouse era stato progettato per un ambiente in cui tutte le informazioni nascevano dai processi di gestione del business, che erano progettati all’interno dell’azienda per offrire la visione più accurata e affidabile possibile della base giuridica delle operazioni e delle transazioni di business. Questi dati, mediati dai processi, forniti dai sistemi operazionali e integrati nel data warehouse continuano a essere basilari per la gestione del business e delle operazioni. Per tali dati, i principi e le pratiche di data warehousing rimangono valide oggi come lo erano trent’anni fa. L’emergere di nuovi tipi di dati in questi ultimi anni ha però minato la fede nel data warehousing e portato molti a concentrarsi su nuove tecnologie, come Hadoop, e a tentare di definire nuove architetture, come i bacini di dati o i data lake. Questi nuovi tipi di dati si dividono in due grandi categorie, cioè le informazioni di origine umana, human-sourced, che si riferiscono a una serie di materiali generati e utilizzati dai social, tra cui i tweet, i documenti di testo, le immagini e i video che provengono per lo più dall’esterno dell’azienda, mentre i dati generati dalle macchine, machine-generated, provengono da tutti i tipi di sensori e macchine, sia di provenienza interna sia, sempre più, dall’Internet of Things. Questi due tipi di informazioni, spesso chiamati big data, differiscono notevolmente dai dati mediati dai processi, e differiscono tra di loro in termini di struttura, volumi, affidabilità e altre caratteristiche. Questi nuovi tipi di dati offrono anche nuove o migliorate opportunità per digitalizzare molti aspetti del business, con approcci algoritmici che sono sempre più visti come essenziali per la redditività e il successo in una vasta gamma di settori. Tali algoritmi sono o saranno basati sui recenti progressi nel campo dell’intelligenza artificiale e del deep learning, resi possibili dalla crescita esplosiva dei big data. Questa transizione in atto oggi ha implicazioni ad ampio livello sia per le aziende sia per l’IT, oltre che in materia delle architetture dei dati.
Un po’ di storia delle architetture – La novità dei big data, così come le loro caratteristiche spesso citate di volume, velocità e varietà, ha portato consulenti e vendor a concentrarvi i loro sforzi di sviluppo e di vendita. Questa attenzione è stata così intensa che molti clienti sono arrivati a credere che il data warehouse sia obsoleto e anche ridondante, quando niente potrebbe essere più lontano dalla realtà. Il ruolo dei dati mediati dai processi è distinto da questi nuovi tipi di dati. I big data forniscono il contesto e la ricchezza predittiva attorno alle transazioni formali di business dei dati mediati dai processi, che continuano a rappresentare la realtà del business. Anche se è meno comune, un’altra convinzione è che alcuni o tutti questi nuovi dati dovrebbero essere fusi nell’ambiente warehouse esistente. Questo è errato perché i volumi sono troppo grandi nella maggior parte dei casi e la velocità di variazione dei dati e dei loro significati è troppo rapida e frequente per trovare posto nelle tecnologie tradizionali. Inoltre, questi nuovi tipi di dati non possono richiedere lo stesso tipo di riconciliazione e di gestione della qualità richiesta dei dati core mediati dai processi. Tuttavia, l’esperienza mostra già che i benefici di business sono maggiori quando entrambi i tipi di dati, vecchi e nuovi, sono utilizzati insieme. I dati human-sourced provenienti dai social media offrono più valore quando sono correlati con i dati dei clienti di provenienza interna derivanti dai dati mediati dai processi. I dati machine-generated derivanti dal click-stream permettono un’analisi più profonda e significativa di come e perché le vendite sono diminuite nell’ultimo trimestre nel data warehouse mediato dai processi. Questo ci porta a un tipo ibrido di architettura, composta da più colonne, ciascuna ottimizzata per le caratteristiche di una particolare classe di dati o informazioni e interconnesse da informazioni condivise di impostazione del contesto e dalla funzione di assimilazione. L’architettura originale di data warehouse vive, anche se in forma più aggiornata nella colonna dei dati mediati dai processi. Questa nuova architettura è descritta in dettaglio nella mia opera “Business unintelligence”. In contrasto con il data warehouse, in cui tutti i dati provengono dalle transazioni di business e operazioni commerciali, questa nuova architettura riconosce che i dati e le informazioni hanno in realtà origine al di fuori dei sistemi aziendali che gestiscono e fanno funzionare il business. Quest’ultimo è infatti guidato da informazioni provenienti dal mondo reale sotto forma di eventi, misurazioni e messaggi di origine umana o da parte di macchine: tutte le decisioni e le azioni di business poggiano sulla base di tali informazioni. Il processo decisionale, come previsto dal data warehousing, è solo una delle componenti del moderno business digitalizzato e guidato dai dati.
Il processo decisionale oltre il data warehouse – L’obiettivo originale del data warehousing e della business intelligence era quello di supportare il processo decisionale da parte di manager e analisti per le questioni tattiche e strategiche. Con l’evoluzione della business intelligence, l’attenzione si è spostata alle decisioni più operative e con orizzonti temporali più brevi. E mentre entrambe queste esigenze continueranno a esistere, ora sono considerate solo un aspetto del supporto al processo decisionale. Dato che il mondo è sempre più tecnologico, con enormi volumi di messaggi, eventi e misurazioni che scorrono dentro e fuori l’azienda, molte decisioni tattiche e operative si spostano dal centro verso la periferia dell’organizzazione, dal management e dal personale verso gli algoritmi e le macchine. Questi ultimi, guidati dall’intelligenza artificiale e dal deep learning, potranno prendere le decisioni dettagliate che un tempo erano appannaggio degli esseri umani. Le loro abilità sono già impressionanti, come dimostrano per esempio AlphaGo, che ha battuto il campione del mondo di Go, oppure i veicoli autonomi che circolano sulle strade, con miglioramenti esponenziali, anche se è importante riconoscere che tutti gli algoritmi sono buoni nella misura in cui lo sono i dati su cui si basano le loro interpretazioni e decisioni. Come abbiamo già imparato in trent’anni di data warehousing, avere dati coerenti e di elevata qualità è fondamentale per il processo decisionale. In questi trenta anni, abbiamo lavorato duramente per garantire l’integrità dei nostri dati. Però, se vogliamo essere onesti, non abbiamo fatto un lavoro strabiliante. E mentre il nuovo mondo dei business digitalizzati prende forma, la nostra capacità di gestire la qualità e l’integrità di tutti e tre i tipi di dati sarà di vitale importanza per garantire che il processo decisionale algoritmico funzioni effettivamente come previsto, e nell’intero arco di attività.