By Barry Devlin

Aprile 2021

Decisioni data-driven? L’intolleranza ai dati è il problema

I dati non mentono ma possono essere errati o interpretati male. Una comprensione incompleta delle statistiche o del contesto di riferimento porta a decisioni sbagliate. I fallimenti dei progetti di BI derivano da una mancanza di coerenza tra persone, processi, informazioni e tecnologia.

Tutti o quasi conoscono le affermazioni fatte dai vendor di strumenti di business intelligence (BI) e di analytics secondo cui una percentuale delusivamente bassa, spesso il 10% o meno, di uomini d’affari utilizza effettivamente i dati nel processo decisionale. La soluzione proposta è, non a caso, da ricercare nel prodotto X, e più in generale nell’adozione della BI self-service. I più esperti (cioè i “più vecchi”) di noi ricordano che i vendor di BI utilizzano gli stessi argomenti e le stesse cifre da circa trent’anni.
Perché il problema persiste? Nuove tecniche di analytics e strumenti di BI migliorati non hanno davvero aiutato. Il problema, credo, sta tra i dati e le persone. Pochissime persone possono veramente digerire i dati ed estrarne informazioni valide e “nutrienti”. Esistono molti esempi, ma l’uso dei dati nella pandemia illustra bene il problema.

L’utilizzo dei dati nella pandemia – Dall’inizio della pandemia, siamo stati inondati di dati di tutte le forme e dimensioni, su cui si basano le decisioni a tutti i livelli, da quello personale a quello sociale. Le conseguenze sono di enorme importanza per l’impatto sull’economia e la salute delle persone.
Analizzando il numero giornaliero di infezioni da Covid-19 registrate in Italia da febbraio 2020 in poi, la storia di base è che i casi di ottobre e novembre hanno notevolmente superato i picchi registrati a marzo. Per molti, quel periodo di tempo è ricordato come il coronamento dell’orrore della pandemia e associato in modo indelebile al numero di morti che raggiungeva il picco di circa 800 al giorno. Durante il periodo fino ad agosto e settembre, il numero crescente di casi è stato spesso presentato come un avvertimento alla popolazione di prendere precauzioni contro una marea crescente di infezioni. È stato solo all’inizio di ottobre, quando i casi hanno iniziato a superare rapidamente il picco primaverile, che le segnalazioni hanno iniziato a sottolineare che i test precoci erano in gran parte limitati a persone fortemente sintomatiche in ospedale, mentre i test attuali sono molto più diffusi. In breve, i numeri dei casi, prima e dopo l’estate, non possono essere confrontati. Migliaia di grafici simili da tutto il mondo dimostrano il punto: i dati possono non mentire (sebbene possano essere errati), ma le informazioni possono essere interpretate male, sia deliberatamente sia inavvertitamente, e spesso lo sono. Con l’aumento delle tipologie di test disponibili e la progressiva diffusione dei vaccini, una nuova serie di numeri e concetti statistici è salita alla ribalta delle cronache. In alcuni Paesi, molta fiducia del governo è stata riposta nei test a flusso laterale che sono meno costosi, evitano le analisi di laboratorio e restituiscono rapidamente i risultati. Tuttavia, rispetto ai test standard della reazione a catena della polimerasi (PCR), gli esperti hanno sollevato preoccupazioni sulla loro efficacia. Per comprendere l’argomento, è necessario distinguere tra tassi di falsi negativi e falsi positivi, nonché sensibilità e specificità. In effetti, il governo britannico è accusato di aver interpretato erroneamente alcuni dati per fini politici. Il dilemma è che la maggior parte delle persone “normali” non riesce a digerire i dati e finisce per essere disinformata. Ma la situazione è migliore nel mondo del business?

L’utilizzo dei dati nel mondo del business – Un white paper di dieci anni fa della società di analisi dei dati Mu Sigma identifica i 5 errori comuni commessi dalle persone in nome dell’analisi statistica: 1) la sofisticatezza delle statistiche compensa la mancanza di dati e/o di comprensione del business; 2) l’estrazione di significato dalla casualità; 3) correlazione contro causalità: la modellizzazione aiuterà a scoprire le relazioni causali; 4) estrapolare i modelli ben oltre i limiti consentiti; 5) l’assegnazione dei valori mancanti con la media o la mediana è il modo migliore per trattare i valori mancanti.
Per quanto importanti e rilevanti rimangano, si tratta di errori alquanto sofisticati relativi all’applicazione delle statistiche al business. Come sottolineano gli autori, alcuni di questi errori derivano da una comprensione incompleta delle statistiche, alcuni dalla comprensione incompleta del business sottostante e il resto dall’incapacità di sposare i due insieme. Con l’avvento degli analytics e delle scienze decisionali, le nostre decisioni sono sempre più influenzate da questi errori, che possono comportare importanti implicazioni per la nostra attività e quindi la necessità per i manager di apprezzare, percepire ed evitare queste insidie comuni. L’immensa crescita nell’uso dei metodi analitici dal 2011 significa che questi e simili errori diventano ancora più importanti. L’articolo del 2017 del Business Application Research Center (BARC) dal titolo “Self-service BI: an overview” descrive i vantaggi del self-service per “migliorare l’agilità e la flessibilità nei reparti aziendali aumentando l’indipendenza dell’utente dai reparti IT. Allo stesso tempo, il carico di lavoro dell’IT per attività semplici viene ridotto, consentendo ai reparti IT prosciugati di risorse di concentrarsi su attività con un valore aggiunto più elevato per la propria organizzazione”. D’altro canto, il report rileva potenziali impatti significativi sulla governance dei dati poiché proliferano incongruenze dei dati, errori analitici e silos di dati.

L’intolleranza ai dati – Mentre i vendor e gli esperti di BI sostengono che più persone dovrebbero utilizzare i dati, una domanda fondamentale è quanti uomini del business potrebbero (ovvero, sono in grado di) utilizzare i dati per supportare il processo decisionale tramite strumenti analitici o BI self-service. Nella mia esperienza, il numero è inferiore a quanto la maggior parte di noi potrebbe pensare o sperare. Oggi, si sente molto parlare di intolleranze alimentari. Alcune persone non possono consumare grano, altre latticini. Un concetto simile si applica ai dati. Per molti, i dati portano a confusione mentale, con conseguente perdita di informazioni o interpretazione errata del significato. Quindi, c’è un modo per ridurre l’intolleranza ai dati, per migliorare la digestione dei dati?
Il rimedio standard proposto sono i metadati. I cataloghi di dati hanno visto una recente rinascita di interesse poiché i data lake sono proliferati e i dati scarsamente definiti e gestiti sono diventati comuni. Le informazioni sull’impostazione del contesto (CSI, Context-setting information) sono un nome più significativo per i metadati come descritto nel libro Business unIntelligence. Mettere un forte accento sulla creazione e la fornitura di CSI agli uomini del business è sicuramente un primo passo per affrontare l’indigestione dei dati. Tuttavia, non è una cura completa.
Martijn ten Napel, un architetto olandese di BI, ritiene che i fallimenti dei progetti di BI derivino da una mancanza di coerenza tra persone, processi, informazioni e tecnologia. La sua risposta è l’architettura connessa, un framework per l’organizzazione di progetti DW e BI. Martijn ten Napel sostiene che dobbiamo distinguere chiaramente tra consumatori e produttori di informazioni. I consumatori di informazioni sono uomini del business che trasformano le informazioni, non i dati, in attività, decisioni e, in ultima analisi, valore. I produttori di informazioni, dagli specialisti ETL ai data scientist, preparano i dati e li estrapolano in informazioni. Seduti tra business e IT, i produttori di informazioni devono fornire un ponte a doppio senso di circolazione per massimizzare il trasferimento di informazioni contestuali e ridurre al minimo la perdita o l’incomprensione delle informazioni.
I produttori di informazioni devono scrivere la ricetta per curare l’indigestione dei dati: una storia o un commento descrittivo e comprensibile che si accompagna sempre a ogni informazione utilizzata dai consumatori e spiega come e perché i dati e le informazioni possono essere convertiti tra loro e interpretati solo in certi modi logici e significativi. La creazione di tali commenti informativi non è né semplice né gratuita, ma si tratta di un investimento necessario per migliorare la digestione dei dati e aumentare il valore delle informazioni per il business.