Entro il 2025 si prevede che il volume globale dei big data raggiungerà i 175 ZB , oltre il doppio rispetto al 2020. La costante esplosione dei volumi di dati presenta una serie di opportunità ma richiede l’adeguamento dell’architettura gestionale.

Le aziende avranno anche bisogno di più potenza di calcolo, archiviazione e ricerca nei dati per accedere a queste informazioni. Fino a poco tempo fa, le due opzioni standard per l’archiviazione dei dati aziendali erano i data warehouse (come estensione dei database relazionali) e i data lake. Tuttavia, i crescenti volumi di dati non possono più rientrare in un’unica soluzione, spingendo molti a considerare scenari di architettura ibrida.

Data Warehouse vs Data Lake: cosa sono?

Prima di affrontare l’analisi sulla convergenza tra le due tecnologie, riassumiamo rapidamente i contenuti specifici.

Che cos’è un Data Warehouse?

Un data warehouse (DW) è un sistema tecnico, usato per la gestione dei dati tradizionali, accumula, trasforma e archivia dati provenienti da diverse fonti, rendendoli pronti per l’analisi. 

Le soluzioni di data warehouse consentono di connettere strumenti di business intelligence (BI) e soluzioni avanzate di analisi dei big data , basate su machine learning (ML) e intelligenza artificiale (AI) per analizzare i dati e trasformarli in informazioni aziendali utilizzabili per migliore decisione. I vantaggi del data warehouse sono numerosi: BI più veloce e più robusta, migliore qualità e conformità dei dati, gestione della cronologia, scalabilità e interoperabilità, maggiore sicurezza, conformità e consolidamento dei dati.

Che cos’è un Data Lake?

Il data lake è una differente soluzione per aggregare big data strutturati e non strutturati, provenienti da fonti connesse in un cloud storage sicuro e scalabile. A differenza del data warehousing, i dati raccolti vengono archiviati nello stato, senza alcuna precedente trasformazione, pulizia o catalogazione. Le soluzioni data lake basate su cloud possono ospitare grandi volumi di big data senza limiti alle dimensioni dei file. Anche il Data Lake presenta vantaggi interessanti: maggiore velocità di elaborazione dei dati, flessibilità nell’attivazione di analytics, tempi di risposta rapidi, numerosi modi per interrogare i dati.

Hybrid Data Lake: la convergenza di Data Warehouse con Data Lakes

La crescita dei volumi e dell’utilizzo dei big data ha spinto a ripensare la strategia per l’archiviazione e l’elaborazione dei dati. I data warehouse su cloud offrono un’archiviazione dati flessibile ma la principale limitazione è la capacità di gestire i dati. Le tecnologie di data warehouse obbligano ad utilizzare un formato specifico, compatibile con gli strumenti di BI esistenti. Ciò significa che non tutti i tipi di dati sono disponibili per l’analisi. Inoltre, l’applicazione di toolkit è limitata.

Per questo motivo si evidenzia l’aumento del data warehouse che, però, non implica la sostituzione delle risorse tecnologiche esistenti. Al contrario, si integrano aggiungendo flussi di dati e capacità di analisi complementari attraverso l’implementazione del Data Lake.

In questo scenario, arriviamo ad avere due ambienti per tutti i dati:

  • Data lake: un ambiente “sandbox” con dati grezzi, archiviati a un costo più accessibile e rapidamente recuperabili per l’analisi.
  • Data warehouse  un ambiente di servizio e conformità, accessibile a un numero maggiore di utenti che possono interrogare i dati arricchiti utilizzando una serie di strumenti.

Perché implementare sia la tecnologia Data Lake che Data Warehouse?

Si stima che entro il 2023 il 90% delle strategie aziendali prevederà l’analisi dei big data come strumento fondamentale di business.

Le moderne best practice del data warehouse incoraggiano le organizzazioni a “dividere per gestire” i crescenti volumi di dati: i DW tradizionali (ospitati on-premise o nel cloud) potranno mantenere la propria funzione di reporting principale e fornire informazioni agli strumenti di BI self-service. Un data lake, a sua volta, potrà fungere da repository multiuso, consentendo lo sviluppo di algoritmi personalizzati e modelli di analisi predittiva.

Separando i carichi di lavoro e l’archiviazione dei dati, non solo si possono compensare i costi di archiviazione dei dati, ma anche migliorare la visibilità dei dati, la governance e la sicurezza su tutta la linea.

Ecco quindi i vantaggi della strategia Hybrid Data Lake

  • Interrogazione facilitata: la strategia ibrida consente di interrogare dati relazionali e non relazionali utilizzando un’unica query di recupero, invece di strumenti e processi diversi (come EFL). Ciò aumenta la produttività permette di confrontare dati estratti da diverse fonti.
  • Elaborazione rapida dei dati: lavorando con i dati in formato nativo, il time-to-market è più rapido e consente nuove soluzioni di analisi.
  • Sperimentazione illimitata: una configurazione ibrida permette di eseguire carichi di lavoro simultanei sugli stessi set di dati e riutilizzare i dati disponibili per scopi di analisi diversi. 
  • Sicurezza e conformità migliorate: la doppia configurazione consente di separare i dati sensibili dall’ingresso nel data lake e, invece, di reindirizzarli direttamente al data warehouse per ulteriori trasformazioni. Si ottiene una migliore visibilità e controllo sull’utilizzo dei dati e sulla conformità rispetto all’utilizzo del solo data lake.
  • Interoperabilità migliorata: il data warehouse ibrido consente l’accesso a una gamma più ampia di origini dati, dai dispositivi IoT ai dati web pubblici. Ciò può rivelarsi particolarmente utile nella gestione di dati da parte della Pubblica Amministrazione.

Conclusione

I data warehouse e i data lake hanno entrambi punti di forza e limitazioni. Sebbene il lake consenta di archiviare volumi significativi di dati diversi, questa architettura presenta sfide in termini di aggiornamento dei dati, visibilità, riconciliazione e conformità. Gestire in modo efficace i dati provenienti da molte fonti disparate è tecnologicamente impegnativo.

I warehouse, d’altra parte, favoriscono la coerenza, l’omogeneità e la qualità dei dati. Tuttavia, questo comporta un costo di elaborazione dei dati più elevato e in maggiore tempo, oltre a limitare spesso la gestione alle sole query basate su SQL. 

Un approccio ibrido sfrutta i punti di forza di entrambe le soluzioni, compensando i punti deboli del funzionamento di ciascun sistema. Dato il volume crescente e la diversità dei dati e, di conseguenza, le analisi che richiedono, diventa impossibile soddisfarli tutti con un’unica soluzione quindi l’architettura ibrida potrebbe essere l’approccio ottimale per raggiungere questo obiettivo.


Articoli recenti

Skip to content