Mike Ferguson

Di Mike Ferguson

Ottobre 2022

Prossimi eventi di questo docente:

 

Data Governance centralizzata. Come gestire i dati in un insieme distribuito

Per molti anni, la governance dei dati ha riguardato solo la qualità dei dati. Oggi, è molto di più.
Analitica embedded, app intelligenti e strumenti di AI integrata per scongiurare l’impatto negativo dei dati non governati sul business, i processi e le decisioni

Per molte aziende, l’ultimo decennio è stato un terremoto a livello di trasformazione digitale. Abbiamo assistito a cambiamenti sia nelle applicazioni e nei processi operativi sia nel mondo degli analytics. In termini di sistemi operativi, abbiamo assistito a un cambio di marcia nel coinvolgimento dei clienti online e nell’interazione con le app mobili rivolte ai clienti self-service che sono diventate la nuova interfaccia utente per i sistemi di transazione core. Inoltre, molti sono passati ad applicazioni di gestione delle transazioni di tipo SaaS, ovvero eseguite al di fuori del firewall aziendale, e l’Internet of Things è comparso nelle operazioni e nei prodotti fabbricati per catturare sempre più dati. Anche a livello di analytics le attività sono state frenetiche: nuove tecnologie di database, l’era dei big data, il data warehousing nel cloud, la data science con il machine learning e ora l’automazione aziendale basata sull’intelligenza artificiale.

Uno tsunami di dati – In questo periodo abbiamo assistito a uno tsunami di dati emergere da un numero sempre crescente di nuove fonti di dati che le aziende vogliono analizzare. Questo comprende anche i dati generati dall’uomo come chat web, e-mail in entrata, dati vocali, immagini, video e dati di social network. Inoltre, si parla anche di dati generati dalle macchine, come i dati del flusso di clic online che si hanno quando le persone navigano nei siti Web, i dati IoT e i dati di log delle infrastrutture. Insomma, si è andati ben oltre i tradizionali dati strutturati nei database transazionali. Tuttavia, anche lì, l’introduzione di app mobili self-service rivolte ai clienti e l’elaborazione delle transazioni online ha fatto salire alle stelle i tassi di transazione. Anche il numero di utenti che richiedono dati è cresciuto rapidamente.

Effetti collaterali – Un effetto collaterale di tutto questo è che le aziende hanno a che fare con un patrimonio di dati molto più complesso. I dati vengono archiviati in molteplici tipi di datastore on premise e in molteplici cloud, oltre che nell’edge. Si potrebbe trattare di fogli Excel, file flat, database relazionali, database NoSQL, sistemi Hadoop, archiviazione di oggetti cloud come AWS S3, database relazionali basati su cloud, database NoSQL cloud, unità disco online come OneDrive o Google Drive, SharePoint e tanto altro. I dati delle transazioni possono essere conservati in applicazioni SaaS in molte posizioni diverse e i dati possono anche essere trasmessi in streaming da dispositivi perimetrali e/o archiviati in database perimetrali. Il problema è che le aziende ora devono gestire e governare i dati in un patrimonio di dati distribuito, il che rappresenta un’enorme sfida soprattutto quando il numero di normative e leggi sui dati è in aumento.

La governance non è solo data quality –  Inoltre, il campo di applicazione è stato ampliato. Per molti anni, la governance dei dati ha riguardato solo la qualità dei dati. Oggi, è molto di più, visto che comprende aspetti quali la proprietà e la gestione dei dati; la sicurezza dei dati, che comprende l’accesso ai dati, l’utilizzo dei dati e la prevenzione della perdita dei dati; la privacy dei dati; la qualità dei dati, con MDM e RDM; la gestione del ciclo di vita dei dati, compresa la conservazione dei dati; e infine la condivisione dei dati, comprendente la sovranità dei dati e la condivisione transfrontaliera dei dati.

Violazioni da non sottovalutare – L’Unione Europea ha già inflitto pene pecuniarie alle organizzazioni che non rispettano, per esempio, la GDPR, ovvero la legislazione sulla privacy dei dati. In Europa, tutto ciò che ho visto è che la governance dei dati è cresciuta costantemente anno dopo anno, al punto che oggi in molte aziende questa è una priorità più elevata dell’analisi, e non solo per motivi di compliance. I C-level non vogliono proprio sentir parlare di violazione dei dati, perché il danno al brand aziendale può essere enorme. Inoltre, l’impatto dei dati non governati sulla performance aziendale può essere significativo, per esempio bloccando o ritardando un processo, ritardando decisioni, generando costi operativi non pianificati e molto altro. Inoltre, in un mondo in cui i dati e gli analytics sono ora al centro del business, cosa succede nel machine learning e nella business intelligence se i dati sono di scarsa qualità? Significa che le previsioni e la BI sono influenzate. Tutti abbiamo sentito parlare di “garbage in garbage out”. I professionisti IT devono comprendere l’impatto sul business dei dati non governati se vogliono convincere le aziende del motivo per cui hanno bisogno di entrare nella governance dei dati e cambiare la cultura. È ben documentato che la cultura dei dati è un grosso problema, quindi se si ha difficoltà a convincere le persone del business a partecipare, occorre trovare i problemi causati dai dati non governati e classificare l’impatto di questi problemi sulle performance di business.

La lista delle domande – Bisogna chiedersi anche a quante di queste domande si è in grado di rispondere: Quali sono i principali sistemi e archivi dati utilizzati in azienda? Quali fonti di dati esistono e sono pianificate? Quali esigenze di dati sono disciplinate? Come dovrebbero essere classificati i dati per sapere come governarli? Per i dati strutturati, con quali nomi sono conosciuti e con cosa dovrebbero essere conosciuti? Gli stessi dati sono archiviati in archivi dati diversi con nomi diversi? Quanto è buona o cattiva la qualità dei dati e chi è responsabile della pulizia dei dati? Quali dati sono considerati sensibili e soggetti a conformità in ciascuno dei Paesi in cui si opera? Dove si trovano tutti i dati sensibili? Tutti i dati sensibili sono protetti in tutti gli archivi di dati e contenuti? Gli utenti business sanno quali dati sono disponibili e dove si trovano i dati di cui hanno bisogno? Gli utenti business sanno se i dati sono sensibili? Gli utenti business sanno se i dati sono di scarsa qualità? Gli utenti business sanno a chi chiedere per avere accesso a determinati dati? Chi è autorizzato ad accedere e conservare i dati sensibili, come viene controllato e controllato l’accesso? Come si previene attualmente la perdita di dati a causa di una condivisione eccessiva accidentale? Quali gruppi di utenti vi sono in azienda e chi sono gli utenti? Per quanto tempo devono essere conservati i dati? Quali policy e regole dovrebbero essere applicate a quali dati? In che modo le policy vengono applicate in modo coerente a tutti gli archivi dati in uso in azienda? Quali dati sensibili sono attualmente a rischio e dove si trovano? Chi può modificare le policy, chi deve approvare le modifiche e le modifiche vengono controllate? Come viene regolato l’utilizzo dei dati? Si sa chi o cosa sta attualmente utilizzando i dati e per quale scopo? Da dove provengono i dati e quali dati vengono condivisi? Quali trasformazioni sono state applicate dopo la cattura dei dati? Quali strumenti sono in atto per governare i dati e questi strumenti integrano e condividono i metadati?

Come affrontare la sfida dei dati – Inoltre, cosa è necessario fare per governare i dati in un’area dati distribuita? A mio parere abbiamo bisogno di capacità quali il rilevamento e la catalogazione automatizzati dei dati; la classificazione dei dati per classificare automaticamente dati e contenuti per sapere come governarli; la definizione centralizzata di policy per specificare come devono essere governati i dati e i contenuti classificati; l’applicazione delle policy nel panorama dei dati distribuiti; e infine monitorare, segnalare e agire continuamente per mantenere i dati governati. Una cosa è chiara: tutto questo non può più essere svolto manualmente. Ci sono troppi dati, troppi archivi di dati e file (spesso milioni) e le persone non sono preparate ad affrontare questa sfida senza l’aiuto dell’automazione derivante dall’AI integrata negli strumenti che stanno utilizzando. Va anche detto che la classificazione dei dati e l’applicazione delle policy dei dati sono le più difficili da ottenere su così tanti tipi di datastore e applicazione in un insieme di dati multicloud distribuito. Si noti inoltre che esiste una differenza tra il rilevamento automatico dei dati e la classificazione automatizzata dei dati. Non sono la stessa cosa. L’acquisto di un catalogo dati che automatizza solo il rilevamento dei dati non è sufficiente. È necessaria la classificazione automatica di diversi tipi di dati sensibili specifici per Paese. È inoltre necessario definire e utilizzare uno schema di classificazione della riservatezza dei dati e uno schema di classificazione della conservazione dei dati. C’è anche bisogno di una serie di tecnologie chiave che devono integrarsi e lavorare insieme.