Di Andy Kirk

Settembre 2021

Prossimi eventi di questo docente:

8 – 9 Novembre 2021:
Data Visualisation

 

Analisi esplorativa dei dati: Come utilizzare gli elementi grafici per visualizzare i dati

Che cosa significa comunicazione visiva dei dati? Non esiste un percorso unico per intraprendere questa attività in modo efficace. Lo specialista di data visualization Andy Kirk ci guida alla scoperta delle capacità tecniche, pratiche e concettuali per vedere i dati da tutte le angolazioni possibili

La maggior parte dell’attenzione nella visualizzazione dei dati si concentra sul suo ruolo come mezzo per comunicare i dati ad altri. Tuttavia, questo rappresenta solo un lato della medaglia, in quanto c’è un altro scopo fondamentale, che è quello di aiutarci, in qualità di analisti, a esplorare i dati.

Le immagini aiutano a integrare l’analisi statistica, offrendo tecniche che ci permettono di interrogare a fondo i dati per portare alla luce insights e qualità che altrimenti potrebbero essere nascoste alla vista.

Come descrisse una volta il matematico John Tukey – “l’analisi esplorativa dei dati (EDA, exploratory data analysis) è più un atteggiamento, una flessibilità e un affidamento al display che non un insieme di tecniche”. E come ho descritto nella seconda edizione aggiornata del mio libro “Data Visualisation: A Handbook for Data Driven Design”, non esiste un unico percorso per intraprendere questa attività in modo efficace, in quanto richiede una serie di diverse capacità tecniche, pratiche e concettuali come l’istinto dell’analista, il ragionamento, i tipi di grafico e la conoscenza della materia.

L’istinto dell’analista – L’atteggiamento e la flessibilità descritti da Tukey riguardano il riconoscimento dell’importanza dei tratti dell’analista. L’EDA efficace non riguarda lo strumento. Ci sono molti vendor che magnificano i loro dispositivi come l’opzione magica “punta e clicca” che svelerà scoperte profonde.

La tecnologia gioca inevitabilmente un ruolo chiave nel facilitare queste fatiche, ma non bisogna sottovalutare il valore di un buon analista che è probabilmente più rilevante delle caratteristiche di differenziazione tra uno strumento e l’altro. In assenza di una procedura definita per effettuare l’EDA, l’analista deve possedere la capacità di riconoscere e perseguire una “scia” di indagine. Un buon analista avrà quella speciale miscela di curiosità naturale e di sensibilità per sapere quali approcci (statistici o visivi) impiegare e quando.

Il ragionamento – L’efficienza è un aspetto particolarmente importante di questa attività di esplorazione. L’atto di interrogare i dati può richiedere molto tempo ed energia. Anche con set di dati più piccoli si può essere tentati di provare una miriade di combinazioni di analisi diverse. Il ragionamento è un tentativo di aiutare a ridurre la portata di questa sfida. Con così tanti metodi statistici e visivi a disposizione degli analisti, è raramente possibile scatenare l’intera artiglieria esplorativa. Ricorrere all’EDA significa essere intelligenti, riconoscendo che è necessario essere esigenti riguardo alle proprie tattiche. Nel mondo accademico ci sono due distinzioni negli approcci al ragionamento, ovvero deduttivo e induttivo, che ritengo siano utilmente applicate in questa discussione. Il ragionamento deduttivo è mirato: si ha un’ipotesi specifica, inquadrata dalla conoscenza della materia, e si interrogheranno i dati per determinare se ci sono prove di rilevanza o interesse nel risultato conclusivo, adottando la mentalità di un detective, tipo Sherlock Holmes. Ciò aiuterà a confermare le cose che si ritiene di sapere, oltre ad aiutare a indagare sulle cose che si sa di non sapere.

A volte, la conseguenza di questo ragionamento non è ottenere risposte, ma avere una migliore comprensione delle domande chiave. Il ragionamento induttivo è di natura molto più aperta: si “giocherà” con i dati, basandosi inizialmente su un’intuizione da verificare, e poi si aspetterà e si vedrà cosa emerge. In un certo senso, è come fare ricerche, e sperare in quel momento di serendipity quando si scopre l’oro.

Si manterrà una mente aperta, lasciando che il flusso della scoperta abbatta permutazioni potenzialmente inaspettate. È importante darsi spazio per intraprendere questi viaggi esplorativi un po’ meno strutturati.

Dalla casualità all’analisi – Tendo a pensare all’EDA confrontandolo con la sfida di risolvere il puzzle visivo “Dov’è Wally?”. Il processo per trovare Wally sembra casuale. Si tende a iniziare lasciando che gli occhi corrano intorno alla scena come un cane che è appena stato fatto uscire dall’auto e sta saettando attraverso un campo. Dopo l’esplosione iniziale di casualità, forse inconsciamente, si passa attraverso un processo più ponderato di analisi visiva. L’eliminazione avviene lavorando attorno a diverse parti della scena e dichiarando in sequenza le zone “Wally-free”. Questo aiuta la concentrazione e la strategia su dove guardare dopo. Mentre ci si sposta attraverso ogni mini scena, si stanno abbinando i modelli, cercando le caratteristiche del ragazzo che indossa gli occhiali, un cappello e un maglione a righe bianche e rosse e pantaloni blu. L’obiettivo di tutto questo è chiaro e univoco nella definizione. La sfida dell’EDA raramente è così netta. Ci sarà sempre una fonte di curiosità da seguire e si potrebbero trovare prove della presenza di “Wally” da qualche parte nei dati. Tuttavia, a differenza della sfida “Dov’è Wally?”, con l’EDA si ha anche la possibilità di trovare altre risposte. Cose che potrebbero alterare la portata di ciò che si qualifica come interessante e rilevante. Nel portare alla luce altre scoperte, si potrebbe determinare che Wally non interessa più e che trovarlo non rappresenta più l’indagine principale.

I tipi di grafico – Si tratta di vedere i dati da tutte le angolazioni possibili. Il potere della percezione visiva significa che possiamo facilmente fare affidamento sulle nostre capacità di abbinamento di modelli e di creazione di senso, in armonia con la conoscenza contestuale della materia, per fare osservazioni sui nostri dati. Visualizzando i dati per noi stessi, siamo in grado di stabilire una maggiore conoscenza delle caratteristiche dei valori dei dati, come grandezza, distribuzione, relazioni ed eccezioni.

Le visualizzazioni aiutano ad andare oltre. Si scopre cosa c’è nei dati ma soprattutto cosa non c’è dentro. Ogni tipo di grafico offre una visualizzazione diversa dei dati e facilita osservazioni specifiche. È necessario conoscere le capacità e i limiti di ciascun tipo di grafico per capire come e quando distribuirli. Bisogna anche sviluppare il vocabolario grafico, abbracciando una gamma più ampia di opzioni, non limitandosi al ristretto insieme di approcci provati e affidabili. Come con l’alfabetizzazione statistica, ampliare l’alfabetizzazione visiva allargherà la visione potenziale dei dati.

La conoscenza della materia – Condurre un’analisi esplorativa senza la necessaria conoscenza del dominio della materia lascia esposti a diversi rischi: si potrebbe non sapere se ciò che si sta vedendo è significativo o inaspettato. L’approccio per rafforzare la conoscenza di un argomento è in gran parte buon senso: si esplorano i luoghi (libri, siti web) e si consultano le persone (esperti, colleghi) che collettivamente daranno le migliori possibilità di porre le giuste domande ai dati e di conoscere come interpretare le risposte che ricevi.

Non c’è nulla da vedere qui? – Se non si è trovato nulla di rilevante allora è stato raggiunto un punto morto. Nonostante aver provato tutti gli angoli di attacco immaginabili, non si è scoperto alcun significato in nessuna relazione, e fondamentalmente non si è trovato nulla di “interessante” sui modelli e sulla forma dei dati. Cosa si fa a questo punto? In queste situazioni, è la scoperta del “niente da vedere e sentire” che può aiutare a sviluppare la concentrazione, eliminando le dimensioni dell’analisi possibile. Se vi sono attributi di “nulla” nei dati – lacune, nulli, zeri – si potrebbe anche scoprire che proprio questi si riveleranno l’insight fondamentale.

C’è sempre qualcosa di interessante nei dati. Se un valore non è cambiato nel tempo, forse avrebbe dovuto farlo: questo è un insight. Se tutto è della stessa dimensione, questa è la storia. Se non c’è alcun significato nelle quantità, nelle categorie o nelle relazioni spaziali, si saprà che questi risultati sono rilevanti solo comprendendo veramente il contesto dell’argomento. Questo è il motivo per cui bisogna sforzarsi il più possibile per convertire il maggior numero di ignoti in noti.