Ottobre 2010

BI Open Source: basso costo e alto valore?

Un numero crescente di organizzazioni si dimostra sempre più attratto dalle promesse del software open source (OS). Perché no? Sono soluzioni a basso costo, ricche di funzionalità, che possono ridurre il costo totale di proprietà dell’infrastruttura It. Software come Linux, OpenOffice, MySql e Firefox sono considerate soluzioni mainstream e vengono ampiamente adottate. E per quanto riguarda soluzioni di Business intelligence (Bi)? Le suite di Pentaho o Jaspersoft sono sufficientemente mature per competere con quelle consolidate di vendor proprietari? MySql può essere utilizzato come database analitico o di datawarehouse? Quali altre soluzioni sono disponibili? Quali sono gli strumenti open source per attività di reporting e analisi? E ancora, Olap, corporate performance management, quali sono le risposte che si possono trovare nel mondo open source? Quali sono i costi e i rischi che devono essere presi in considerazione? A tutte queste domande si è cercato di dare una risposta nel corso di un seminario di Technology Transfer del dicembre scorso. In questo articolo ne presentiamo una sintesi.

La maturità della BI Open Source

Non si deve guardare molto lontano per avere la prova della maturità raggiunta dalla BI Open Source. Unionfidi, un’importante istituzione finanziaria italiana attiva nel credito a piccole e medie aziende, ha sostituito tutte le soluzioni BI esistenti, comprese quelle di reporting, con una suite BI Open Source a partire dal 2006. Un altro esempio è quello del ministero della Sanità che ha scelto una suite Open Source per sviluppare un nuovo sistema di supporto decisionale. Molte organizzazioni, sia pubbliche sia private, stanno attualmente implementando soluzioni BI Open Source che rispondono al nome di JasperSoft, Pentaho o SpagoBI, suite che rendono disponibile un ampio spettro di funzionalità, dall’Etl a funzioni ad hoc di analisi e reporting. Spago BI ha inoltre il vantaggio di essere un prodotto italiano, sviluppato e supportato da Engineering, un grande system integrator nazionale.
È comunque bene tenere presente che, nonostante le soluzioni menzionate condividano molte funzionalità, esistono differenze, anche sostanziali nel modo in cui vengono proposte. Sia JasperSoft che Pentaho offrono per esempio versioni Community e Professional. Le versioni Community sono fully Open Source mentre le versioni Professional offrono componenti aggiuntive closed source. Nelle versioni professionali queste aziende offrono una pluralità di componenti, funzionalità aggiuntive come cruscotti e reporting ad hoc e un ottimo livello di supporto. Gartner, una tra le più affermate società di analisi, all’interno del BI Magic Quadrant Report, posiziona JasperSoft e, in particolare, Pentaho, tra le aziende che offrono il miglior livello di supporto, superiore a quanto offerto dai vendor tradizionali che operano nell’ambito della BI. Ciò non significa che le soluzioni open siano direttamente confrontabili con le suite proprietarie di IBM Cognos, SAP Business Objects, Microsoft, Oracle e SAS. Queste ultime mantengono ancora una posizione di vantaggio in quanto vantano una proposta più ricca e avanzata rispetto alle soluzioni Open Source. Tuttavia come affermato da Gartner, «mentre i vendor tradizionali possono ancora vantare una posizione di preminenza nell’offerta tecnologica complessiva, l’adozione dell’Open Source aumenta perché considerata sufficientemente valida». Per queste ragioni Gartner ritiene che il mercato Open Source possa continuare a conoscere una rapida crescita di adozione e quintuplicare il proprio volume nel giro di un paio di anni.

Integrazione e interrogazione dei dati

Una tipica soluzione BI non accede direttamente a dati residenti in applicazioni Erp o finanziarie; normalmente, questo avviene grazie a un database o un datawarehouse intermedio ottimizzato per attività analitiche di reporting e analisi. Per riuscire a estrarre i dati dai vari sistemi sorgenti e trasferirli su un datawarehouse centralizzato è necessario disporre di tool di data integration. Questa classe di strumenti appartiene a ciò che viene abitualmente definito come Etl, un ambiente dedicato che comprende tool per l’estrazione, trasformazione e caricamento dei dati. Anche in questo caso, il mondo Open Source offre un’ampia gamma di scelta. Kettle, per esempio, tool Etl che fa parte della suite BI di Pentaho. E poi Talend (utilizzato all’interno di JasperSoft dove viene chiamato JasperEtl), Jitterbit, Snaplogic, CloverEtl. Non saranno comparabili a quelli offerti dai “megavendor”, ma vengono ritenuti sufficientemente validi: basso costo, adeguate funzionalità, possono essere un’alternativa al software proprietario.
La discriminante nell’adozione di una soluzione Bi, la caratteristica che consente di implementare con successo un progetto BI fa comunque riferimento alle prestazioni. Come si comportano in questo senso le soluzioni open? Possono costituire una reale alternativa? In molte implementazioni BI basate su Open Source si è spesso iniziato a utilizzare un database come MySql per poi accorgersi che non garantiva adeguate prestazioni su attività di query. Bene, a questo proposito si deve ricordare che MySql può essere un eccellente database transazionale e, in alcuni casi, un buon datawarehouse o data mart, ma non è adatto per essere il datawarehouse o il database analitico di livello enterprise. Questo è il motivo per cui vendor Open Source come Infobright e Calpont hanno sviluppato soluzioni di database specializzate, basate su MySql, ma che prevedono un motore di storage completamente differente, adatto a supportare carichi di lavoro BI di tipo enterprise. Un concetto esteso ulteriormente da Kickfire, anch’esso basato su MySql, ma che garantisce livelli prestazionali di gran lunga superiori. Naturalmente la scelta di un database analitico Open Source non si limita a soluzioni basate su MySql. MonetDB, Ingres/VectorWise e LucidDB sono anch’esse soluzioni in grado di garantire alte prestazioni grazie alla disponibilità di engine di storage progettati su una logica di formato basato su colonna e non su riga, come avviene invece per la maggior parte di database tradizionali quali Oracle o Sql Server. Questa caratteristica, associata a tecniche di indicizzazione e compressione, rende questi database impareggiabili, in termini di prestazioni, per attività di query. L’importanza della query performance non deve essere sottovalutata. Come evidenziato nell’annuale survey sulla BI a firma dell’affermato analista Nigel Pendse, la soddisfazione dell’utente è infatti largamente dipendente dalle prestazioni in attività di query.

A proposito di Excel

Nonostante molte soluzioni BI siano costruite attorno a una suite completa, o stack, che comprende database, tool Etl, tool di reporting e analisi, talvolta anche strumenti per il data mining e analisi statistiche, esiste una soluzione che adotta un approccio differente. La logica di fondo su cui è stata creata questa soluzione è scaturita da una semplice considerazione, ovvero che il tool di analisi e reporting più utilizzato è Excel. Ma per quanto semplice e potente Excel ha due svantaggi. Il primo è dovuto alla mancanza di un meccanismo di data store ad alte prestazioni, il secondo alle limitazioni in termini di opzioni di sicurezza e gestione. E se ci fosse un tool che permettesse di usare Excel come tool di budgeting, analysis e forecasting e allo stesso tempo riuscisse a colmare i punti di debolezza di Excel? Questo è esattamente quanto è stato realizzato da Jedox Palo, una soluzione che prevede un database multidimensionale sulla parte server associato a tool client per realizzare database, sviluppare modelli e gestire la sicurezza. Tutti questi tool fanno parte di un add-in Excel (o OpenOffice) e il risultato è una soluzione di BI completa basata su un foglio elettronico. I dati vengono trasferiti nel database direttamente dal foglio elettronico oppure attraverso PaloEtl, il tool Etl sviluppato da Jedox. Il fiore all’occhiello della suite è il Worksheet Server, in grado di trasformare un foglio elettronico Excel in una potente applicazione Web multiutente mantenendo tutti i gadget del foglio elettronico originale.

Conclusioni

Si può dunque scegliere tra molti buoni prodotti, il supporto è di solito eccellente e la maggior parte delle soluzioni menzionate in questo articolo sono facili da usare, installare e personalizzare, ottenendo risparmi.