Novembre 2010

Metadati e DW 2.0

In generale si definisce metadato un insieme di dati che contengono informazioni su dati. Sebbene questa definizione sia poco precisa, la sua forza consiste nel riconoscere che i metadati sono dati. Ne consegue che i metadati possono essere immagazzinati e gestiti in un database, sia esso identificato come registro o repository. I metadati hanno particolare attinenza con i dati elettronici e vengono utilizzati per descrivere definizione, struttura e amministrazione di file di dati e rispettivi contenuti e contesti. In un’accezione più ampia i metadati forniscono un significato a tutti gli artefatti aziendali, inclusi processi di business, piattaforme tecnologiche e così via.
Uno degli ingredienti essenziali di un ambiente DW 2.0 sono proprio i metadati. A differenza della prima generazione di datawarehouse, in cui i metadati erano assenti o non venivano più di tanto considerati, in una dimensione DW 2.0 essi ne costituiscono il fondamento stesso.
I metadati hanno acquisito importanza per tutta una serie di motivi: sono importanti per lo sviluppatore che deve allineare i propri sforzi con quanto creato in precedenza; sono determinanti per tutti coloro che devono garantire quotidianamente la piena funzionalità dei sistemi. Ma sono soprattutto fondamentali per gli utenti finali che devono riuscire a comprendere quali nuove analisi possono essere compiute.

Riusabilità dei dati e delle analisi

Consideriamo l’utente finale. La sua necessità consiste innanzitutto nell’ottenere informazioni. Necessità che può essere dettata da direttive aziendali o, semplicemente, dalla curiosità stessa. In entrambi i casi l’utente valuta il possibile approccio all’analisi e sono i metadati, in questa occasione, a offrire un valido supporto. Questi ultimi consentono infatti di sapere quali sono i dati disponibili. Una volta che l’analista ha individuato il punto da cui innescare l’analisi, si può procedere all’accesso dei dati.
Senza i metadati l’analista avrebbe molte difficoltà nel comprendere quali sono le possibili sorgenti. Ecco quindi che i metadati possono rendere più produttiva ed efficace la ricerca, così come far comprendere se una certa analisi è già stata fatta in precedenza.
Per queste ragioni, e per molte altre ancora, i metadati si rivelano una componente della massima importanza in un ambiente DW 2.0.

La localizzazione dei dati in DW 2.0

I metadati hanno un posto particolare negli ambienti DW 2.0. Vi possono essere metadati separati per ciascun settore del DW 2.0: metadati per settori preposti dall’interazione, metadati per settori integrati e per settori near line. I metadati che fanno riferimento a dati di archiviazione non vengono invece separati, ma vengono posti direttamente tra i dati di archiviazione. La ragione è far sì che questi ultimi non siano separati dai dati che vengono descritti.
Sebbene esista una struttura di metadati DW 2.0 di tipo generale, si possono identificare due strutture parallele: una per ambienti dati non strutturati e una per ambienti di tipo strutturato.
Per i dati non strutturati esistono due tipi di metadati: enterprise e local. Quelli enterprise vengono anche definiti di tipo generale, mentre i metadati locali sono anche denominati di tipo specifico.
Per i metadati strutturati vi sono tre livelli: enterprise, local, business/tecnico. Esiste una relazione importante tra questi diversi tipi di metadati. Il posto migliore dove iniziare a spiegare tale relazione è a livello di metadati locali, in quanto la maggior parte delle persone ha familiarità soprattutto con questo tipo di dati. I metadati locali risiedono in molti posti e molte forme: all’interno di processi Etl, nelle directory del Dbms e negli ambienti di Business intelligence.
I metadati locali sono quelli che esistono all’interno di un tool utile per descrivere i metadati che sono strettamente legati al tool stesso: metadati Etl sono per esempio quelli sulle sorgenti, destinazioni e trasformazioni inerenti un passaggio di dati da una sorgente a una destinazione; i metadati di directory Dbms sono invece quelli che fanno riferimento a tabelle, attributi e indici; infine i metadati di Business intelligence sono quelli sui dati usati in processi di analisi. Ma ne esistono ancora molte altre forme.
I metadati locali sono immagazzinati in un tool o tecnologia dedicato all’utilizzo di tali informazioni mentre metadati aziendali vengono immagazzinati in un luogo cui accedono tutti gli strumenti e i processi che esistono all’interno del DW 2.0.

Conclusioni

I metadati sono essenziali per la riusabilità dei dati e delle analisi. Grazie a essi l’analista può scoprire ciò che è stato realizzato fino a quel momento. In assenza di metadati per l’analista sarebbe estremamente difficoltoso conoscere quali strutture dati e quali analisi sono già state prodotte. Vi sono quattro livelli di metadati: enterprise, local, business e tecnico. Esistono metadati sia per ambienti non strutturati sia per ambienti strutturati. I metadati di archiviazione vengono posti direttamente nell’ambiente di archiviazione.

Che cos’è il DW 2.0? Il Datawarehousing ha più di vent’anni e in tutto questo tempo ha conosciuto molti cambiamenti. Vecchie tecnologie sono diventate mature, nuove tecnologie hanno fatto la loro apparizione e le organizzazioni hanno accettato la Business intelligence come componente standard della loro infrastruttura. Esistono tuttavia diverse interpretazioni sul datawarehouse: active datawarehouse, federated datawarehouse, star schema datawarehouse e così via. Tutte differenti.
Nella definizione di un datawarehouse non viene peraltro menzionata l’integrità dei dati. Non solo, ma la prima generazione di datawarehouse non è riuscita a gestire requisiti che sono poi stati considerati pienamente legittimi. Oggi esiste il DW 2.0, una definizione di architettura di datawarehouse per il futuro del datawarehouse.
Alcune delle funzionalità più rilevanti di un DW 2.0 prevedono che il datawarehouse si faccia carico della gestione del ciclo di vita dei dati. E poi ancora: la coesistenza di dati strutturati e non strutturati; la presenza di metadati come parte integrante del datawarehouse; la possibile associazione di dati strutturati e non strutturati e, infine, la capacità di trattare quantità di dati illimitate.