Mike Ferguson
Settembre 2016

Le sfide dei Big Data Qual è la lista delle priorità?

Più investimenti per migliorare la strategia di business. La centralità del cliente, l’ottimizzazione delle business operations, la privacy dei dati e la sicurezza sono i fattori chiave

 

Recentemente ho svolto una ricerca in Europa sulle priorità di business nei diversi settori verticali, e ne ho ricavato che sono tre gli aspetti che dominano quasi ogni tipo di attività. Prima di tutto, la necessità di diventare customer centric e migliorare il coinvolgimento dei clienti attraverso tutti i canali. Poi, la necessità di ottimizzare le operazioni di business. Infine, la necessità di investire in termini di privacy e sicurezza dei dati, allo scopo di rimanere in regola con la nuova normativa dell’Unione europea sulla protezione dei dati (GDPR, General Data Protection Regulation), che le aziende devono essere in grado di garantire da maggio 2018. I primi due aspetti non dovrebbero costituire una sorpresa: dopotutto, hanno chiaramente a che fare con i margini di profitto, visto che l’attenzione al cliente serve per proteggere e aumentare i ricavi, mentre ottimizzare le operazioni attiene all’efficienza e alla riduzione dei costi. La sorpresa è forse il rapido aumento dell’importanza della privacy dei dati, causata senza dubbio dall’introduzione della nuova normativa da parte del Parlamento europeo. E questo obbligo si è imposto sulle aziende a fianco dei primi due, che sono puramente di tipo business driven. Tuttavia, tutti e tre sono aspetti che richiedono forti investimenti nella gestione dei dati, nei big data e negli analytics: è quindi il caso di dare un’occhiata a ciascuno di questi in maniera più dettagliata.

 

La centralità del clientePer quanto riguarda la centralità del cliente, l’obiettivo è quello di mantenere e far crescere la base di clienti, offrendo prodotti e servizi personalizzati e competitivi, uniti a un servizio clienti di elevata qualità. Questo impone che le aziende acquisiscano la massima conoscenza dei propri clienti, che vada ben oltre gli insight ricavati dall’analisi storica delle transazioni presenti nei data warehouse e nei data mart, in quanto comporta invece la cattura e l’analisi di molti più dati provenienti da fonti interne ed esterne. Un esempio potrebbe essere quello dei dati dei social media, da cui si possono ricavare le opinioni dei clienti e le reti di amici e influencer per ciascun cliente. Altri esempi potrebbero essere i dati riguardanti la posizione delle persone, i dati meteo e o quelli di tipo open government, che possono fornire una comprensione più profonda circa i comportamenti di acquisto e i fattori in grado di influenzare le vendite. Acquisire una comprensione del parere dei clienti sul proprio brand e sui propri prodotti richiede la raccolta e l’analisi di dati di testo dai social media e l’osservazione dei siti web, mentre per comprendere il comportamento online dei clienti vanno esaminati i clickstream dai web log. Però, catturare ogni click e ogni tocco di un schermo del telefono cellulare può rivelarsi impegnativo, visto che questo tipo di dati può essere molto ampio in volumi, a maggior ragione se si prevede anche di acquisire i dati intermedi del carrello della spesa che portano a un acquisto, per identificare i prodotti di interesse potenziale che sono stati guardati ma non acquistati, o che sono stati messi nel carrello ma poi tolti. Inoltre, se si desidera offrire consigli personalizzati quando un cliente o un potenziale cliente si trova in linea, i dati di log devono essere catturati, preparati e analizzati in tempo reale mentre le persone navigano: di nuovo, si tratta di un compito impegnativo che richiede massima scalabilità. Non solo: se si intende monitorare la posizione del cliente in continuo, è necessario raccogliere rapidamente i dati del sensore GPS dallo smartphone dei clienti, nel momento in cui sono generati. Il punto qui è che se le aziende vogliono disporre di una vista unificata e completa di un cliente, hanno bisogno di nuovi dati, e questo può portare a nuove sfide, che possono comportare il ricorso a molteplici piattaforme analitiche, una sola delle quali è il data warehouse. C’è bisogno di analytics più avanzati, che devono essere in grado di scalare per gestire i notevoli volumi di dati e la loro rapidità. Inoltre, i dati possono dover essere integrati in scala per prepararli all’analisi, e se i nuovi insight sono il risultato di molteplici piattaforme analitiche, allora hanno bisogno di essere integrati per ogni cliente su queste piattaforme, in modo da fornire la necessaria visione unificata del singolo cliente. Ma non solo: per questa strategia è anche fondamentale un master data management per cliente. Questo, per impostazione predefinita, porta sotto i riflettori diverse altre esigenze di gestione dei dati, tra cui gestione delle identità, profilazione dei dati, standardizzazione, pulizia, arricchimento e corrispondenza, che sono fondamentali per fornire una vista unificata del cliente. La necessità di presentare una visione da diverse piattaforme analitiche sottostanti come una vista unificata e integrata per cliente è resa possibile dall’uso di software di virtualizzazione dei dati, per consentire ciò che alcuni chiamano “logical data warehouse”.

 

L’ottimizzazione delle business operations – Anche l’ottimizzazione delle operazioni di business comporta alcune sfide. Le aziende stanno cominciando a dotarsi di strumenti in modo da acquisire una comprensione più profonda di ciò che sta accadendo in un’area nella quale spesso non si è saputo molto. L’implementazione di sensori nelle linee di produzione e nelle operazioni di logistica comporta avere a disposizione nuovi dati per capire cosa succede in ogni fase della produzione, fino alla consegna del prodotto. Allo stesso modo, nell’ambito Oil & Gas, i sensori permettono di vedere dal vivo le operazioni di perforazione, di monitorare l’integrità dei pozzi e i flussi negli oleodotti. Tuttavia, questo tipo di dati è tipicamente generato a prezzi molto elevati. Inoltre, può essere memorizzato nel cloud, e questo comporta che la gestione dei dati deve comprendere sia l’on-premise sia lo storage in cloud.

Ma tutti questi dati vanno portati al centro del sistema per essere analizzati, oppure alcune delle analisi dovrebbero essere svolte molto più vicino al punto in cui i dati vengono generati? Io preferisco quest’ultima ipotesi, per diversi motivi. In primo luogo, non è saggio aspettare che tutti i dati vengano centralizzati prima di poterli analizzare. Individuare modelli in tempo reale, e agire su di essi via via che accadono, consente alle aziende di rispondere rapidamente per mantenere le operazioni sempre ottimizzate. In secondo luogo, non è saggio immettere tutti i dati sulla rete quando i sensori, per esempio, potrebbero emettere la stessa lettura a ogni intervallo, con piccole variazioni solo occasionalmente. Pertanto, solo una piccola percentuale di tali dati (che potrebbe comunque essere considerevole) è suscettibile di essere utilizzata nell’analisi. In terzo luogo, bisogna sempre essere in grado di scalare in questo tipo di ambienti, e il modo migliore per farlo è quello di distribuire gli strumenti di analisi nell’edge della rete.

 

La privacy dei datiL’ultima priorità è la questione della privacy dei dati, che per tutti noi qui in Europa non è solo un problema di governance dei dati, ma rappresenta ora un requisito legale, a seguito dell’introduzione del GDPR dal Parlamento europeo all’inizio di quest’anno. Si tratta di un compito non indifferente per la maggior parte delle aziende, e lo è per molte ragioni, la principale delle quali è che ora si ha a che fare con molteplici tipi di archivi dati sia all’interno dell’azienda sia nel cloud: il “data lake” non è centralizzato, come invece vorrebbero farci credere i vendor Hadoop, ma è distribuito con copie ridondanti di dati in più ubicazioni e archivi dati. La sfida è quindi quella di individuare dove si trovano i dati sensibili, per classificarli con il livello di sensibilità richiesto e quindi applicare le politiche e le regole adatte. Più in particolare, c’è bisogno di politiche di privacy quando si hanno dati sensibili, indipendentemente dal tipo di archivio di dati nei quali risiedono. Ma c’è anche bisogno di applicare le stesse politiche ai dati duplicati in più archivi e se si spostano i dati tra diversi tipi di storage. Infine, dobbiamo fare in modo che le persone non possano essere identificate quando i dati vengono integrati e analizzati: si tratta davvero di una sfida impegnativa.