Creare Prodotti Dati Riusabili per l’Analitica
Data Lake o Lakehouse o Data Mesh
Descrizione
Molte aziende memorizzano dati e girano applicazioni in un ambiente ibrido multi-Cloud. I sistemi analitici tendono a essere centralizzati e messi in silos come Data Warehouse e Data Mart per la BI, Hadoop o Data Lake su Cloud per Data Science e sistemi streaming analitici stand-alone per analisi real-time. Questi sistemi centralizzati si affidano a Data Engineer e Data Scientist che lavorano all’interno di ciascun silos per acquisire dati da molte fonti diverse, pulirli e integrarli per l’utilizzo in uno specifico sistema analitico o modelli di Machine Learning.
Ma questi sistemi centralizzati e l’approccio silos creano diversi problemi tra cui tools diversi per preparare e integrare i dati, il doversi re-inventare pipelines di integrazione dati per ciascun silos e il data engineering centralizzato che, con una scarsa conoscenza della sorgente dati, non permette di tenere il passo con le richieste dell’azienda di nuovi dati. Anche il Master Data Management non è ben gestito.
Per indirizzare questi aspetti stanno emergendo nuove Architetture Dati che permettono di accelerare la creazione di dati da usare in differenti workload analitici. Data Mesh è una Architettura Dati decentralizzata con l’ownership dei dati orientata al dominio e l’ingegneria dei dati self-service decentralizzata per creare una rete di prodotti dati che servono più sistemi analitici.
Anche i Data Lake possono essere utilizzati per la stessa ragione e integrati con Data Warehouse o Lakehouse in modo che i prodotti dati a latenza più bassa possano essere creati una volta e utilizzati in Analitica di streaming, Business Intelligence, Data Science e in altri workload analitici.
Questo seminario esamina i punti di forza e di debolezza di Data Lake, Data Mesh e Data Lakehouse e come differenti team orientate al dominio possono usare uno stesso software di infrastruttura dati per creare prodotti dati affidabili, compliant e riusabili in un Data Mesh o Data Lake da utilizzare in Data Warehouse, Data Lakehouse e Data Science per generare valore.
L’obiettivo è quello di creare valore in breve tempo ed essere sicuri che i dati siano governati correttamente in un ambiente decentralizzato. Ci si sofferma anche sulle implicazioni organizzative di queste Architetture e su come creare prodotti dati condivisibili per MDM che possano essere usati in differenti workload analitici. Le tecnologie discusse includono Cataloghi Dati, self-service Data Integration, Data Fabric, DataOps, Data Warehouse Automation, Data Marketplace e piattaforme di Data Governance.
Cosa imparerete
- Punti di forza e di debolezza delle Architetture centralizzate usate nell’Analitica
- I problemi causati nei sistemi analitici esistenti da un panorama dati ibrido multi-Cloud
- Cosa sono un Data Mesh, un Data Lake e un Data Lakehouse? Quali benefici offrono?
- Quali sono i principi, i requisiti e le sfide nell’implementare questi approcci?
- Come organizzarsi per creare prodotti dati in un ambiente decentralizzato al fine di evitare il caos?
- L’importanza critica del Data Catalog per capire quali dati sono disponibili as a Service
- Come i glossari di Business possono aiutare per fare in modo che i prodotti dati siano capiti e collegati semanticamente
- Un modello operativo per una efficace Data Governance federata
- Quale software di infrastruttura dati è richiesto per operare e governare un Data Mesh, Data Lake o Data Lakehouse?
- Una metodologia di implementazione per produrre prodotti dati affidabili e riusabili?
- Sviluppo collaborativo e orientato al dominio di pipeline di DataOps modulari e distribuite per creare prodotti dati
- Come un Catalogo Dati e un software di automazione possono essere usati per generare pipeline di DataOps
- Gestire la Qualità dei dati, la privacy, la sicurezza dell’accesso, le version e il ciclo di vita di prodotti dati
- Pubblicare prodotti dati semanticamente collegati in un data marketplace affinché altri li possano consumare e usare
- Consumare prodotti dati in un Sistema MDM
- Consumare e assemblare prodotti dati in sistemi analitici multipli per ottenere valore in tempi brevi
Argomenti Trattati
- Cosa è un Data Mesh, un Data Lake o un Data Lakehouse? Perché usarli?
- Metodologie per creare Prodotti Dati
- Usare un glossario di business per definire i Prodotti Dati
- Sviluppo e operatività standardizzati in un Data Mesh, Data Lake o Lakehouse
- Costruire Pipelines di DataOps per creare Prodotti Dati multiuso
- Implementare una Data Governance Federata per produrre e usare Prodotti Dati

Cost
Date
Location
