by Weaver James

Febbraio 2002

Data Mining: Come Gestire le Relazioni con i Clienti Secondo i Principi del CRM

Le tecniche di CRM (Customer Relationship Management), aiutano le imprese nel commisurare meglio la fornitura dei prodotti e le campagne di vendita alle reali aspettative e necessità dei clienti, acquisiti o potenziali. La personalizzazione delle azioni produce una migliore profittabilità.

Fino a tempi ancora recenti, la maggior parte del software CRM era mirato alla semplificazione delle organizzazioni e alla gestione delle informazioni relative ai clienti.

Il software di questo tipo, denominato operational CRM (ovvero CRM operativo) crea una base dati che presenta in maniera corretta lo stato delle relazioni tra cliente e impresa. Tali basi dati vengono utilizzate in applicazioni che prevedono il contatto diretto con i clienti come, ad esempio, l’automazione delle forze di vendita o il servizio post vendita.

Anche il CRM operativo ha assorbito enormi risorse in termini di spesa e di tempo dedicato, mentre il ritorno sull’investimento risulta limitato. L’operatività ha guadagnato in efficienza (ovvero le operazioni abituali vengono effettuate in maniera più rapida e impegnando un numero minore di persone), ma non in maniera più intelligente.

Tuttavia, le tecniche più innovative consentono di migliorare la profittabilità, ottimizzando l’interazione con il cliente nell’arco dell’intero ciclo di vita del rapporto.

Le tre fasi del ciclo

Tale ciclo si può suddividere in tre fasi principali. Nella prima, l’impresa si adopera per acquisire nuovi clienti e incrementare il numero di relazioni che è possibile attivare. Nella seconda fase, le imprese si sforzano di aumentare la profittabilità delle loro relazioni, puntando sulla crescita delle vendite di prodotti e servizi ai clienti esistenti.

Nella terza fase, infine, si sforzano di aumentare la durata delle loro relazioni profittevoli, assicurandosi la fedeltà dei buoni clienti. L’obiettivo fondamentale da raggiungere in tutte e tre le fasi si può riassumere nel presentare l’offerta giusta, al momento giusto e al cliente giusto.

La tecnica del Data mining rende possibile il raggiungimento di questo scopo, fornendo un senso all’enorme massa di dati complessi derivante dalle informazioni sul cliente e dalle transazioni intercorrenti.

Il Data mining è un processo che utilizza una varietà di tecniche di analisi e di modellazione per identificare relazioni e collegamenti tra i dati. Tali collegamenti possono essere usati per effettuare previsioni sul comportamento del cliente.

Le applicazioni CRM che usano il Data mining sono denominate CRM analitico. Questo nuovo tipo di CRM semplifica la scelta dei nominativi su cui puntare, all’interno di una lista di clienti potenziali (fase 1 del ciclo di vita).

Il Data mining può aiutare le imprese nell’offerta di un ventaglio di prodotti più attraenti per i clienti esistenti (fase 2), oppure può aiutare nell’identificare i clienti a rischio di abbandono (fase 3).

Il risultato finale si traduce in un incremento di profitto, causato dalla superiore capacità di rispondere nel modo migliore a ogni contatto individuale, oltre che dalla riduzione dei costi dovuta a una più razionale allocazione delle risorse.

Tuttavia, il Data Mining è uno strumento, non una soluzione magica. Non è un’entità residente nel vostro database, che osservi in continuazione tutti gli accadimenti, avvisando quando rilevi un collegamento interessante.

Non elimina, quindi, la necessità di conoscere a fondo la propria attività, di comprendere il significato dei dati e di conoscere i metodi analitici. Il Data mining aiuta a identificare i percorsi di previsione e le relazioni tra i dati, ma sta poi all’individuo verificare l’accuratezza di tali previsioni nei confronti del mondo reale.

Quindi, ricordate che, per utilizzare con successo il Data mining, è necessario l’uso di un largo spettro di strumenti analitici. Non aspettatevi che sia sufficiente un algoritmo unico.

I processi metodici

La chiave di successo più importante consiste nel seguire processi metodici. Nella Parte I di questo articolo in due parti su Data mining e CRM, esamineremo i primi tre passi dei seguenti processi di Data mining, a loro volta articolati su sette passi.

1. Definire i problemi del business2. Costruire la base dati per il Data mining3. Esplorare i dati4. Preparare i dati per analizzarli con un modello5. Costruire un modello6. Valutare il modello7. Agire in base ai risultati.

1. Definire i problemi del business

Primo e più importante prerequisito del Data mining è la comprensione del business e dei dati a vostra disposizione. Tale consapevolezza è necessaria per identificare i problemi che desiderate risolvere, per preparare i dati per la ricerca, interpretandone correttamente i risultati e, infine, per avere fiducia nella correttezza delle previsioni elaborate.

Per utilizzare al meglio il Data mining, dovete preparare una chiara definizione dei vostri obiettivi. Alcuni tipici, tra questi, possono essere: “focalizzare l’attenzione su prospect che dimostrino una reazione positiva alle campagne di marketing”, oppure “vendere prodotti aggiuntivi ai clienti esistenti”, o ancora “sviluppare campagne per ridurre le cause di logoramento del rapporto”.

Obiettivi come “migliorare il tasso di risposta” e “incrementare il valore della risposta” posso sembrare simili, ma ciascuno richiederà la costruzione di un modello sostanzialmente diverso.

Una definizione efficace del problema comprenderà un modo per misurare i risultati del progetto. Potrà comprendere anche una giustificazione dei costi, ovvero l’analisi del ROI (Return on Investment).

Senza un obiettivo ben definito e in mancanza di un metodo per determinare se lo avrete raggiunto, sicuramente non trarrete alcun beneficio dal Data mining.

2. Costruire la base dati per il Data mining

Questa fase, così come le due successive, fa parte del nucleo della preparazione dei dati e, nel complesso, si tratta di attività che richiedono più tempo e maggiori sforzi rispetto all’insieme delle altre fasi rimanenti.

Per i dati relativi alla gestione della relazione con i clienti, CRM (Customer Relationship Management), queste fasi assorbono tipicamente dal 60% al 95% del tempo e delle risorse dedicate al progetto.

I dati oggetto della ricerca debbono essere raggruppati in un database (in dipendenza della loro complessità e dell’uso che se ne vuole fare, il database potrà essere organizzato mediante un sistema DBMS – Data Base Management System -, oppure come semplice archivio o come foglio di calcolo elettronico).

In termini generali, vi troverete meglio creando un sottoinsieme (data mart) separato, invece di utilizzare il data warehouse generale dell’impresa. Il Data mining spesso richiede l’unione di molte tabelle e l’accesso a porzioni sostanziali del database.

Un solo modello di prova può richiedere molti passaggi attraverso molteplici parti del database. Usando un data mart, eviterete di sovraccaricare le risorse elaborative del data warehouse.

L’amministratore del data warehouse non ama che gli vengano cambiati i dati. Per i vostri scopi, sicuramente vorrete modificarli. In aggiunta, forse vorrete inserire dati provenienti da fonti esterne, così come vorrete aggiungere nuovi campi contenenti valori elaborati da quelli esistenti.

Altri che debbano costruire modelli a partire dal data warehouse vorranno aggiungere le proprie elaborazioni e modifiche. Ebbene, L’uso di un data mart eviterà qualsiasi problema di salvaguardia dell’integrità del data warehouse.

Anche se non disponete di un data warehouse, il Data mining può incrementare il profitto generato dai vostri clienti e migliorare sostanzialmente la vostra capacità di acquisirne di nuovi.

Naturalmente, più i dati elaborati saranno completi e, corrispondentemente, migliore sarà la loro qualità e quindi, anche il risultato. Attenzione, però, a non ricercare la perfezione.

3. Esplorare i dati

Prima di poter realizzare un buon modello previsionale, dovete comprendere il significato dei vostri dati. Iniziate esaminando una varietà di sintesi numeriche (incluse le statistiche descrittive tipo valori medi, deviazioni standard e così via) ponendo attenzione alla distribuzione dei dati.

Potreste desiderare di produrre tabulazioni incrociate per dati multidimensionali. L’obiettivo è di identificare i campi più importanti per la previsione di un risultato, determinando quale valore derivato potrà essere utile.

In una rappresentazione tabellare di dati con centinaia o addirittura migliaia di colonne, l’esplorazione e ricerca dei dati può richiedere un tempo considerevole con una forte intensità di elaborazione.

A tale scopo, avrete bisogno di una buona interfaccia e di un computer veloce. Elaborazioni più rapide portano a risultati migliori, perché sarete in grado di provare approcci differenti.

Gli strumenti grafici e di visualizzazione costituiscono aiuti vitali nella preparazione dei dati e la loro importanza per un’analisi efficace dei dati non sarà mai abbastanza enfatizzata. La visualizzazione delle informazioni spesso fornisce la chiave per nuovi punti di vista.

Alcuni dei più diffusi modi di rappresentazione grafica dei dati sono gli istogrammi, che indicano la distribuzione dei valori. Potete anche realizzare grafici che mostrino la dispersione dei valori (in due o tre dimensioni) di coppie di variabili diverse.

L’utilità di alcuni tipi di grafici può migliorare aggiungendo una terza variabile in sovraimpressione, oppure suddividendo un grafico in rappresentazioni singole dei valori di una variabile.

4. Preparare i dati per analizzarli con un modello

Questa è la preparazione finale dei dati, prima di costruire modelli. Questa fase prevede quattro attività principali:

4.a Scelta delle variabili.

dealmente, potete inserire tutte le vostre variabili nello strumento di Data mining e lasciare a lui il compito di determinare quelle più significative ai fini delle previsioni. In pratica, questo non è così semplice, perché il tempo impiegato per costruire un modello si incrementa in ragione diretta del numero di variabili considerate.

Quindi, la cieca inclusione di colonne non significative può portare alla realizzazione di modelli non corretti. Dovete selezionare le variabili più adatte, basandovi sulla vostra conoscenza del dominio.

Ad esempio, potreste escludere il “codice identificativo”, perché non fornisce un valore utile alla predizione dei fenomeni, mentre può diminuire il peso di altre variabili importanti. Dovrete anche verificare che variabili correlate (come, ad esempio, “età” e “data di nascita”) non siano considerate contemporaneamente.

4.b Selezionate anche le righe del modello.

Come nel caso della selezione delle variabili, potreste decidere di utilizzare tutte le righe disponibili per costruire i modelli.

Se avete una grande quantità di dati a disposizione, questo può richiedere molto tempo o addirittura evidenziare la necessità di procurarsi un computer molto più potente di quanto pensereste. La soluzione è il campionamento, ovvero la scelta casuale di sottoinsiemi di dati.

Per la maggior parte dei problemi delle imprese, questo non comporta la perdita di informazioni fondamentali. Una grande società, nota per l’accuratezza delle proprie analisi, basate su milioni di record riferiti ai clienti, costruisce la maggior parte dei modelli utilizzando campioni di non più di 50.000 clienti.

Nella scelta tra costruire pochi modelli con tutti i dati oppure investigare più modelli su campioni dell’universo dei dati, il secondo approccio normalmente porta a costruire modelli molto più significativi. 4.c Inserite nuove variabili.

Spesso è necessario costruire nuovi indicatori previsionali derivati da dati grezzi. Talune variabili, poco significative se considerate a se stanti, possono essere molto interessanti se combinate con altre, mediante operazioni aritmetiche o algebriche.

Ad esempio, la previsione dei rischi di credito utilizzando l’indice dell’incremento dello scoperto di fatturato può produrre risultati migliori dell’uso separato dei crediti e del fatturato come variabili previsionali.

In altri casi, una variabile che presenti uno spettro elevato di valori può essere modificata in un indice migliore, ad esempio utilizzando il logaritmo del fatturato invece del suo valore assoluto.

4.d Trasformare le variabili.

Lo strumento prescelto può imporre la modalità di rappresentazione dei dati. Le reti neurali, ad esempio, richiedono l’esplosione per categorie.

Anche la scala delle variabili può essere modificata per rientrare in limiti più ristretti, come, ad esempio, tra i valori 0 e 1.Molti alberi decisionali utilizzati per la classificazione richiedono il raggruppamento del valore dei dati in categorie del tipo Alto, Medio e Basso.

Naturalmente, le vostre scelte – decidere in quale punto “Medio” diviene “Alto” – possono cambiare radicalmente i risultati del modello.

5. Costruire un Modello

La cosa più importante da ricordare a proposito della costruzione dei modelli è che si tratta di un processo iterativo. Potreste essere costretti a esplorare una serie di modelli alternativi prima di identificare quello più adatto per la soluzione dei vostri problemi d’impresa.

L’esperienza accumulata nella ricerca di un buon modello può portarvi a ripensamenti e a modifiche dei dati utilizzati, oppure può indurvi anche a una revisione della vostra definizione dei problemi.

Di fondo, esistono due tipi di previsioni. Il primo, definito classificazione, prevede in quale categorie o classi ricade un caso specifico. Ad esempio, Come scegliete quella tra diverse offerte (categorie) che risulti più invitante per un cliente da acquisire (caso)?

Il secondo tipo di previsioni, regressione oppure stima, fornisce una previsione numerica, come il valore degli ordini che possiamo attenderci da un particolare cliente.

Il processo di realizzazione di modelli previsionali richiede un addestramento ben preciso e un protocollo di validazione, con lo scopo di generare le previsioni più accurate e realistiche.

Questo tipo di protocollo è definito, a volte, supervised learning, ovvero addestramento controllato. L’essenza di questo tipo di addestramento è di verificare la bontà (alla stima) del vostro modello su di una parte dei dati, quindi testarlo e validarlo con il resto dei dati a disposizione.

In una campagna di mailing diretto, il vostro obiettivo potrebbe essere di scegliere il target migliore all’interno di una mailing list generale. In questo caso, effettuate un mailing ridotto su una parte ristretta della lista, costruendo quindi il modello sulla base dei risultati ottenuti nel test.

Esiste il rischio che il risultato del mailing ristretto preliminare risulti in qualche modo atipico e non applicabile all’intero universo. Per minimizzare tale possibilità, costituite un sottoinsieme dei dati scegliendo a caso i componenti, in modo da costituire un database di test, senza usarli poi nella costruzione e valutazione del modello effettivo.

Il confronto dei risultati ottenuti con i due procedimenti vi aiuterà ad assicurarvi che i diversi insiemi dei dati di test e di training siano entrambi una buona rappresentazione dei dati da considerare nel modello.

Dopo aver costruito il modello sulla porzione di training dei dati, lo stesso modello viene usato per la previsione delle classi di valore del resto della base dati (porzione di test). Dato che già conoscete le risposte giuste (quelle ottenute con il mailing preliminare), potete calcolare l’accuratezza del vostro modello predittivo.

7. Agire in base ai risultati

Una volta costruito e validato un modello di Data mining, questo può essere usato come linea guida generale di azione, oppure può essere applicato a un processo differito (batch).

Come esempio del primo tipo di utilizzo, un analista potrebbe rivedere le regole di classificazione prodotte da un modello, usandole per estrarre una mailing list o per identificare il rischio del credito.

La seconda modalità si riscontra quando il modello si applica a insiemi di dati differenti. Il modello potrà segnare i record basandosi sulla loro classificazione, assegnare un voto come la probabilità di risposta a una sollecitazione diretta via mailing, oppure scegliere alcuni record dalla base dati per analizzarli in seguito con uno strumento OLAP (on line).

Spesso i modelli sono incorporati in un’applicazione dell’impresa come l’analisi del rischio, l’autorizzazione al credito o la ricerca di frodi. Ad esempio, un modello predittivo può essere integrato in un’applicazione di gestione dei contatti, per suggerire a un’applicazione Internet quali offerte proporre.

Oppure, un modello può essere integrato in un sistema di controllo del magazzino, in modo da generare automaticamente un ordine quando si evidenzi la previsione di una giacenza al di sotto della soglia minima prestabilita.

Il modello di Data mining spesso è applicato a una transazione oppure a un evento alla volta. Il tempo necessario per elaborare ogni nuova transazione, insieme al tasso di frequenza delle transazioni, determinerà l’eventuale necessità di un algoritmo di calcolo in parallelo.

Il monitoraggio delle transazioni delle carte di credito o delle chiamate su telefoni cellulari, con lo scopo di identificale eventuali frodi, richiederà un sistema di calcolo in parallelo per gestire la grande frequenza delle transazioni.

Per contro, un’applicazione di valutazione dei rischi per richieste di prestiti può girare anche su computer di modesta potenza.

Per concludere, il Data mining offre grandi promesse nell’aiutare le organizzazioni a scoprire significati e collegamenti nascosti delle informazioni in loro possesso, che possono essere utilizzati per effettuare previsioni circa il comportamento dei clienti, l’andamento dei prodotti o l’efficacia dei processi.

Tuttavia, gli strumenti di Data mining debbono essere guidati da utenti che conoscano l’impresa, la sua attività, i dati e la natura generale dei metodi analitici applicati.

Aspettative realistiche possono portare a risultati utili in un ampio spettro di applicazioni, dall’incremento del fatturato alla riduzione dei costi.