Mike Ferguson

Mike Ferguson

Novembre 2014

Enterprise analytical ecosystem – Come comprendere il comportamento online dei clienti e capitalizzare il valore dei dati nell’era Big Data

Guardando all’attuale scenario della concorrenza, non c’è dubbio che per rimanere competitivi sia necessaria una profonda conoscenza sui clienti e sulle operazioni di business.
Le nuove forme di dati costituiscono una chiave per i vantaggi competitivi, visto che tali dati racchiudono spunti di elevato valore che ogni azienda deve imparare a scoprire, qualora intenda sopravvivere in un mercato dove l’affermarsi del web ha avuto un profondo impatto sul comportamento dei clienti. Perché è noto che sul web il cliente è re: può navigare in giro per confrontare prodotti, servizi e prezzi in qualsiasi momento e ovunque, tramite un dispositivo mobile. Inoltre, con le nuove imprese basate sul web che spuntano ovunque, il cliente ha molta più scelta. La fedeltà di marca è facilmente dimenticata con pochi click del mouse davanti a una proposta migliore. E visto che oggi va così, siamo al punto in cui i dati della transazione non sono sufficienti per fornire una completa conoscenza del cliente. La necessità di comprendere il comportamento online dei clienti è diventata oggi mission critical.

LA VOCE DEL CLIENTE – Ma il web è anche un luogo dove il cliente ha una voce: l’accesso ai social network è ormai onnipresente e per le aziende non sarebbe saggio non riconoscere che questi costituiscono una ricca fonte di conoscenza del cliente. Inoltre, quando si tratta di decisioni di acquisto, la maggior parte delle persone si affida alla rete di amici e contatti più che ad altre fonti. Per questo, comprendere le relazioni sociali e le interazioni può contribuire a capire meglio chi o che cosa influenza il comportamento d’acquisto. Non solo: le persone sono sempre pronte a confrontare i prodotti e i prezzi, e a condividere queste informazioni con gli altri attraverso i social network, rendendo i potenziali acquirenti sempre più informati. All’interno delle imprese, i web log stanno crescendo a ritmi impressionanti alla luce del fatto che i clienti si rivolgono ai canali online come il loro modo preferito di effettuare transazioni commerciali e di interagire con le aziende. Inoltre, quantità crescenti di reti di sensori vengono implementate per gestire e ottimizzare le operazioni di business. Il risultato è una grande varietà di nuove fonti di big data, un rapido aumento del volume di dati e una raffica di nuovi flussi di dati che hanno tutti bisogno di essere analizzati.
Le caratteristiche di queste nuove fonti di dati sono diverse da quelle dei dati strutturati. Per esempio, la varietà di tipi di dati catturati comprende oggi:
• dati strutturati;
• dati semi-strutturati, come XML o HTML;
• dati non strutturati, come testi, audio o video;
• dati di tipo machine-generated, come web log, log di sistema o i dati provenienti dai sensori.

LA VOCE DEI DATI – L’arrivo dei big data e dei big data analytics ha portato con sé un ulteriore livello dei volumi di dati, oltre i tradizionali carichi di lavoro visti nei data warehouse. Tra gli esempi di nuovi carichi di lavoro analitici vi sono:
• analisi dei dati in movimento;
• analisi complessa di dati strutturati;
• analisi esplorativa dei dati multi-strutturati non modellizzati;
• analisi dei grafi, per esempio dei social network;
• accelerazione dell’elaborazione ETL di dati strutturati e multi-strutturati per arricchire i dati in un data warehouse o in un’appliance analitica;
• la conservazione a lungo termine e la rielaborazione dei dati archiviati nei data warehouse per un rapido recupero selettivo.

ENTERPRISE ANALYTICAL ECOSYSTEM – Per questo si rende necessaria una nuova architettura, che presupponga un ecosistema analitico di tipo enterprise (enterprise analytical ecosystem) e che supporti l’analisi, il reporting e l’elaborazione delle query ad hoc tipiche del data warehouse tradizionale nonché i nuovi grandi carichi di lavoro analitici dei big data ora necessari. L’ecosistema analitico comprende una serie di nuove piattaforme di analytics che si integrano e si espandono al di là del tradizionale ambiente di data warehouse. I componenti tecnologici richiesti in questa nuova architettura sono:
• una suite di strumenti di enterprise information management (EIM);
• molteplici piattaforme analytics integrate per la gestione dei big data e dei carichi di lavoro analitici tradizionali, quali una DBMS di tipo non SQL per l’analisi dei grafi, una piattaforma Hadoop, un DBMS relazionale analitico, un data warehouse e infine un motore di elaborazione dei flussi;
• nuovi strumenti e tecniche che sono state anche aggiunte per soddisfare le nuove esigenze dettate dai carichi di lavoro per gli analytics, tra cui vi sono:
o le applicazioni analitiche personalizzate scritte per sfruttare il framework Hadoop MapReduce o il framework in-memory Hadoop Spark, per analizzare i dati multi-strutturati in batch;
o gli strumenti di BI che generano codice applicativo MapReduce o Spark per recuperare e analizzare i dati tipicamente memorizzati in Hadoop;
o gli strumenti di BI basati sulle ricerche che indicizzano i dati tipicamente da Hadoop a supporto delle analisi esplorative di dati multi-strutturati;
o gli strumenti di analisi dei grafi che visualizzano i dati da database NoSQL a supporto dell’analisi esplorativa;

• gli strumenti esistenti della piattaforma BI che possono accedere a entrambe le piattaforme analitiche SQL e NoSQL (per esempio accedere ai dati Hadoop tramite un’iniziativa SQL su Hadoop), a supporto dei diversi tipi di esigenze di discovery visiva e di reporting;

• dovrebbe infine anche essere possibile sviluppare modelli predittivi e statistici per implementarli in un sistema Hadoop, un RDBMS di analisi e di workflow di elaborazione dei flussi di eventi per l’analisi predittiva in tempo reale.

L’ANALISI CROSS-PLATFORM – All’interno di questo nuovo ecosistema di analytics è richiesta anche un’integrazione, per facilitare l’analisi cross-platform. Per esempio, quando si verificano variazioni nei flussi di dati, viene analizzato l’impatto sul business, in modo da poter intervenire se necessario. Gli eventi di interesse filtrati possono anche essere passati al software EIM e caricati in Hadoop per la successiva analisi storica. Se ogni ulteriore approfondimento di analisi viene realizzato da Hadoop, questo potrà essere inserito in un data warehouse per arricchire ciò che è già noto. Invece, i dati multi-strutturati non-modellati possono essere caricati direttamente in Hadoop dove possono essere puliti, trasformati e integrati con i software di integrazione dati di tipo EIM sulla piattaforma Hadoop in preparazione per l’analisi esplorativa da parte dei data scientists. Questi ultimi possono quindi analizzare i dati utilizzando applicazioni analitiche personalizzate, oppure gli strumenti di mappatura e riduzione che generano Java o Pig, mentre gli analytics in-Hadoop possono essere utilizzati quando necessario. In alternativa, gli strumenti di BI basati sulla ricerca possono essere utilizzati per analizzare i big data tramite gli indici di ricerca incorporati in Hadoop. Se i data scientists realizzano insight di valore, vi si potrà accedere tramite gli strumenti di BI che utilizzano SQL o Hadoop.

ENTERPRISE DATA HUB – Un ruolo chiave emergente per Hadoop è oggi quello di Enterprise Data Hub, che è un ambiente Hadoop gestito e governato nel quale riunire i dati grezzi, raffinarli e pubblicare nuovi insight che possono essere resi disponibili agli utenti autorizzati in tutta l’azienda sia on demand sia su base regolare. Questi utenti potrebbero voler aggiungere nuovi insight nei data warehouse e nei data mart esistenti per arricchire ciò che già conoscono, oltre a condurre ulteriori analisi per ottenere vantaggi competitivi.
L’Enterprise Data Hub è composto da:
• una “landing zone” dei dati gestiti, cioè il serbatoio dei dati, o data reservoir;
• una raffineria governata dei dati;
• insight di elevato valore pubblicati, protetti e sicuri;
• storage a lungo termine dei dati archiviati dal data warehouse.

Tutto ciò è reso disponibile in un ambiente sicuro e ben governato. All’interno del data center aziendale, i dati grezzi vengono convogliati, raccolti e organizzati prima che entrino nella raffineria dei dati in cui viene effettuata la discovery dei dati e delle relazioni tra i dati, e dove i dati vengono analizzati, profilati, purificati, trasformati e integrati. Successivamente, vengono resi disponibili ai data scientists, che possono combinarli con altri dati attendibili, quali i dati anagrafici o i dati storici provenienti da un data warehouse, prima di effettuare le analisi esplorative in un ambiente sandbox per identificare e produrre nuovi insight di business.