Creare Prodotti Dati Riusabili per l’Analitica

Data Lake o Lakehouse o Data Mesh

Descrizione

Molte aziende memorizzano dati e girano applicazioni in un ambiente ibrido multi-Cloud. I sistemi analitici tendono a essere centralizzati e messi in silos come Data Warehouse e Data Mart per la BI, Hadoop o Data Lake su Cloud per Data Science e sistemi streaming analitici stand-alone per analisi real-time. Questi sistemi centralizzati si affidano a Data Engineer e Data Scientist che lavorano all’interno di ciascun silos per acquisire dati da molte fonti diverse, pulirli e integrarli per l’utilizzo in uno specifico sistema analitico o modelli di Machine Learning.

Ma questi sistemi centralizzati e l’approccio silos creano diversi problemi tra cui tools diversi per preparare e integrare i dati, il doversi re-inventare pipelines di integrazione dati per ciascun silos e il data engineering centralizzato che, con una scarsa conoscenza della sorgente dati, non permette di tenere il passo con le richieste dell’azienda di nuovi dati. Anche il Master Data Management non è ben gestito.

Per indirizzare questi aspetti stanno emergendo nuove Architetture Dati che permettono di accelerare la creazione di dati da usare in differenti workload analitici. Data Mesh è una Architettura Dati decentralizzata con l’ownership dei dati  orientata al dominio e l’ingegneria dei dati self-service decentralizzata per creare una rete di prodotti dati che servono più sistemi analitici.

Anche i Data Lake possono essere utilizzati per la stessa ragione e integrati con Data Warehouse o Lakehouse in modo che i prodotti dati a latenza più bassa possano essere creati una volta e utilizzati in Analitica di streaming, Business Intelligence, Data Science e in altri workload analitici.

Questo seminario esamina i punti di forza e di debolezza di Data Lake, Data Mesh e Data Lakehouse e come differenti team orientate al dominio possono usare uno stesso software di infrastruttura dati per creare prodotti dati affidabili, compliant e riusabili in un Data Mesh o Data Lake da utilizzare in Data Warehouse, Data Lakehouse e Data Science per generare valore.

L’obiettivo è quello di creare valore in breve tempo ed essere sicuri che i dati siano governati correttamente in un ambiente decentralizzato. Ci si sofferma anche sulle implicazioni organizzative di queste Architetture e su come creare prodotti dati condivisibili per MDM che possano essere usati in differenti workload analitici. Le tecnologie discusse includono Cataloghi Dati, self-service Data Integration, Data Fabric, DataOps, Data Warehouse Automation, Data Marketplace e piattaforme di Data Governance.

Cosa imparerete

  • Punti di forza e di debolezza delle Architetture centralizzate usate nell’Analitica
  • I problemi causati nei sistemi analitici esistenti da un panorama dati ibrido multi-Cloud
  • Cosa sono un Data Mesh, un Data Lake e un Data Lakehouse? Quali benefici offrono?
  • Quali sono i principi, i requisiti e le sfide nell’implementare questi approcci?
  • Come organizzarsi per creare prodotti dati in un ambiente decentralizzato al fine di evitare il caos?
  • L’importanza critica del Data Catalog per capire quali dati sono disponibili as a Service
  • Come i glossari di Business possono aiutare per fare in modo che i prodotti dati siano capiti e collegati semanticamente
  • Un modello operativo per una efficace Data Governance federata
  • Quale software di infrastruttura dati è richiesto per operare e governare un Data Mesh, Data Lake o Data Lakehouse?
  • Una metodologia di implementazione per produrre prodotti dati affidabili e riusabili?
  • Sviluppo collaborativo e orientato al dominio di pipeline di DataOps modulari e distribuite per creare prodotti dati
  • Come un Catalogo Dati e un software di automazione possono essere usati per generare pipeline di DataOps
  • Gestire la Qualità dei dati, la privacy, la sicurezza dell’accesso, le version e il ciclo di vita di prodotti dati
  • Pubblicare prodotti dati semanticamente collegati in un data marketplace affinché altri li possano consumare e usare
  • Consumare prodotti dati in un Sistema MDM
  • Consumare e assemblare prodotti dati in sistemi analitici multipli per ottenere valore in tempi brevi

Argomenti Trattati

  • Cosa è un Data Mesh, un Data Lake o un Data Lakehouse? Perché usarli?
  • Metodologie per creare Prodotti Dati
  • Usare un glossario di business per definire i Prodotti Dati
  • Sviluppo e operatività standardizzati in un Data Mesh, Data Lake o Lakehouse
  • Costruire Pipelines di DataOps per creare Prodotti Dati multiuso
  • Implementare una Data Governance Federata per produrre e usare Prodotti Dati

Costo

€1.200,00 + IVA

Data

28 - 29 Mar 2022
Expired!

Luogo

Evento online
Share on:
Facebook
Twitter
LinkedIn
Email
WhatsApp
Pocket
Reddit