Creazione di prodotti dati in un Data Mesh, Data Lake o Lakehouse per l’utilizzo nell’Analitica

Descrizione

La maggior parte delle aziende oggi archivia dati ed esegue applicazioni in un ambiente multi-Cloud ibrido. I sistemi analitici tendono a essere centralizzati e isolati come Data Warehouse e Data Mart per BI, Hadoop o Data Lake memorizzati su Cloud per Data Science e sistemi analitici di streaming stand-alone per l’analisi in tempo reale.

Questi sistemi centralizzati si affidano a Data Engineer e Data Scientist che lavorano all’interno di ciascun silos per acquisire dati da molte fonti diverse, pulirli e integrarli per l’utilizzo in uno specifico sistema analitico o in modelli di Machine Learning.

Ci sono molti problemi con questo approccio centralizzato e in silos, tra cui più strumenti per preparare e integrare i dati, reinvenzione delle pipeline di integrazione dei dati in ogni silos e ingegneria dei dati centralizzata con scarsa comprensione dei dati di origine che non permettono di tenere il passo con le richieste del Business che richiedono sempre nuovi dati. Anche i Master Data non sono ben gestiti.

Per affrontare questi problemi, sono emerse nuove architetture di dati che tentano di accelerare la creazione di dati da utilizzare in più workload analitici. Data Mesh è un’architettura dati decentralizzata con proprietà dei dati orientata al dominio e ingegneria dei dati self-service decentralizzata per creare una rete di prodotti dati che servono più sistemi analitici. Inoltre, i Data Lake possono essere utilizzati per la stessa cosa e integrati con Data Warehouse o Lakehouse in modo che i prodotti dati a latenza più bassa possano essere creati una volta e utilizzati in streaming Analytics, Business Intelligence, Data Science e altri workload analitici.

Questo seminario esamina i punti di forza e di debolezza di Data Lake, Data Mesh e Data Lakehouse e le modalità con cui più team orientati al dominio possono utilizzare software di infrastruttura dati comune per creare prodotti dati affidabili, conformi e riutilizzabili in una rete dati o Data Lake per l’utilizzo in Data Warehouse, Data Lakehouse e Data Science per generare valore. L’obiettivo è abbreviare il time to value, garantendo al contempo che i dati siano gestiti correttamente in un ambiente decentralizzato.

Questo corso si sofferma inoltre sulle implicazioni organizzative di queste architetture e su come creare prodotti di dati condivisibili per la gestione dei Master Data per l’uso in più workload analitici. Le tecnologie discusse includono cataloghi di dati, integrazione di dati self-service, Data Fabric, DataOps, automazione del Data Warehouse, marketplace di dati e piattaforme di governance dei dati.

Cosa imparerete

  • Punti di forza e di debolezza delle Architetture centralizzate usate nell’Analitica
  • I problemi causati nei sistemi analitici esistenti da un panorama dati ibrido multi-Cloud
  • Cosa sono un Data Mesh, un Data Lake e un Data Lakehouse? Quali benefici offrono?
  • I problemi causati nei sistemi analitici esistenti dagli ambienti multi-Cloud ibridi
  • Quali sono i principi, i requisiti e le sfide dell’implementazione di questi approcci?
  • Come organizzarsi per creare prodotti dati in un ambiente decentralizzato senza creare caos?
  • L’importanza di un Catalogo dati per capire quali dati sono disponibili come un servizio
  • Come i glossari di business possono aiutare ad assicurarci che i prodotti dati siano capiti e semanticamente collegati
  • Un modello operativo per una efficace Data Governance Federata
  • Quale infrastruttura software è richiesta per operare e governare un Data Mesh, un Data Lake o un Data Lakehouse
  • Una metodologia di implementazione per produrre prodotti dati affidabili e riusabili
  • Sviluppo collaborativo orientato al dominio di pipeline distribuite DataOps per creare prodotti dati
  • Come un Catalogo dati e software di automazione possono essere usati per generare pipeline di DataOps
  • A gestire la qualità dei dati, privacy, sicurezza dell’accesso, versioning e il ciclo di vita dei prodotti dati
  • A mettere a disposizione prodotti dati collegati semanticamente in un mercato dati dove altri possono consumarli e usarli
  • A consumare prodotti dati in un sistema MD
  • A consumare e assemblare prodotti dati in sistemi analitici multipli per ridurre il time to value

Argomenti Trattati

  • Cosa è un Data Mesh, un Data Lake o un Data Lakehouse? Perché usarli?
  • Metodologie per creare Prodotti Dati
  • Usare un glossario di business per definire i Prodotti Dati
  • Sviluppo e operatività standardizzati in un Data Mesh, Data Lake o Lakehouse
  • Costruire Pipelines di DataOps per creare Prodotti Dati multiuso
  • Implementare una Data Governance Federata per produrre e usare Prodotti Dati conformi
speakMikeFerguson

Cost

€1.200,00 + IVA

Date

17 Ott 2022 - 18 Ott 2022

Location

Evento online

Share on:
Condividi su facebook
Facebook
Condividi su twitter
Twitter
Condividi su linkedin
LinkedIn
Condividi su email
Email
Condividi su whatsapp
WhatsApp
Condividi su pocket
Pocket
Condividi su reddit
Reddit