Nell’articolo precedente abbiamo considerato tutti i fattori che rendono indispensabile la trasformazione dei dati per ottenere analisi efficaci e risultati attendibili. Vediamo ora come avviene questo processo di trasformazione dei dati.

Come abbiamo visto in precedenza, la trasformazione dei dati è una fase di cui non possiamo fare a meno, poiché tentare di utilizzare questi dati così come sono può portare a complicazioni, interpretazioni errate, errori di integrazione o risultati di analisi distorti. In questo articolo analizziamo sinteticamente i passaggi della trasformazione dei dati e scopriamo cosa succede in ciascuna fase, valutando anche se qualcuna di esse possa essere tralasciata.

1. Scoperta

Questo è il primo passaggio della trasformazione dei dati, spesso il più dispendioso in termini di tempo e sforzi, perché occupa fino al 60-80% dell’intero processo. Per questo motivo, la tentazione di saltarlo può essere davvero grande, ma farlo è altamente sconsigliabile. Ecco perché.

Durante questa fase analizziamo approfonditamente la struttura dei dati, i loro tipi, le loro caratteristiche e la qualità complessiva. In sostanza, si tratta di condurre una profilazione completa dei dati per determinare esattamente cosa deve essere affrontato nel processo di trasformazione.

In questa fase scopriamo varie anomalie come errori di battitura, discrepanze, duplicazioni e valori mancanti. Saltare questo passaggio significa rischiare di affidarsi a dati inaccurati o incompleti, che possono minare il processo decisionale, distorcere le analisi e compromettere i risultati in futuro. È importante, quando si decide di oltrepassare questa fase, essere consapevoli delle possibili conseguenze.

2. Mappatura

Dopo aver affrontato la qualità, la struttura dei dati e aver identificato i difetti, il passo successivo nel processo di trasformazione dei dati è la mappatura. Questa fase riguarda la definizione di come i dati grezzi provenienti da varie fonti saranno allineati e correlati per adattarsi alla struttura e al formato desiderati. È essenzialmente il progetto che guida il modo in cui i campi dati provenienti da sistemi o formati diversi si collegano e fluiscono nel modello di destinazione.

3. Esecuzione

Dopo questa ampia preparazione, passiamo alla fase di esecuzione nella quale implementiamo le azioni pianificate per raffinare i dati, tra cui pulizia, filtraggio, deduplicazione e riformattazione, assicurandoci che siano allineati con la struttura desiderata e gli standard di qualità.

4. Revisione e test

Dopo aver completato la trasformazione dei dati, potrebbe sembrare che la missione sia compiuta. Tuttavia nessuna elaborazione di dati può considerarsi conclusa senza una adeguata verifica.

La fase di revisione, molto simile alla fase di scoperta, è fondamentale, nonostante la tentazione di saltarla. A questo punto, eseguiamo una valutazione approfondita per garantire che non vi siano errori di trasformazione e per convalidare che la nostra logica aziendale sia solida. Ciò include la verifica che la mappatura sia stata eseguita in modo accurato e allineata con la struttura e i formati dei dati previsti.

5. Caricamento

Per trasformare i dati in un potente strumento per il processo decisionale, devono essere preparati per una visualizzazione efficace. Nella fase finale del processo di trasformazione dei dati, i dati raffinati, strutturati e accurati vengono caricati in un Data Lake o Data Warehouse. Questi repository centralizzati fungono da base per analisi avanzate, dashboard e strumenti di reporting, rendendo più semplice l’estrazione di informazioni utili.

Ecco fatto: i dati sono ora pronti per assisterci nei processi decisionali, nella pianificazione strategica e nell’analisi predittiva.

ETL vs. ELT vs. Reverse ETL. Differenze tra gli approcci

Nella sezione precedente abbiamo delineato un tipo classico di trasformazione dei dati che prevede l’estrazione da varie fonti, la trasformazione e il caricamento, comunemente noto come metodo ETL collaudato. Tuttavia, la sequenza di questi passaggi può variare a seconda degli obiettivi specifici che si desidera raggiungere.

Esploriamo ora gli approcci ELT e Reverse ETL per comprenderne meglio le distinzioni e gli scopi.

ELT (Estrazione-Caricamento-Trasformazione)

Come suggerisce il nome, ELT (Extract, Load, Transform) differisce dal classico processo ETL caricando i dati estratti grezzi direttamente nello storage prima di eseguire qualsiasi trasformazione. Questo approccio è generalmente considerato più flessibile in quanto riduce al minimo il rischio di perdere dati preziosi prima che raggiungano un Data Warehouse o un Data Lake.

Ecco un semplice esempio: immaginiamo di dover estrarre dati da Google Analytics. C’è sempre il rischio che le limitazioni dell’API possano impedirci di recuperare l’intero set di dati. Inoltre, fattori esterni come una piattaforma che esce da una regione specifica potrebbero rendere i suoi dati completamente inaccessibili.

Dopo aver caricato i dati grezzi nel nostro storage dobbiamo accertarci di non perderli, come nel caso di ETL. Tuttavia, sebbene l’approccio sia altamente scalabile e sicuro, sia supportato da tutte le architetture cloud e sia perfetto per l’elaborazione di big data, ha comunque i suoi svantaggi.

Il primo problema è la proliferazione dei dati, che rende la gestione dei dati un compito che richiede molto tempo e fatica. Un’altra sfida risiede nelle capacità di calcolo necessarie per manipolare i dati, il che comporta anche spese significative per un cloud potente.

ETL inverso

Il reverse ETL funge da estensione naturale dei processi ETL ed ELT e non può funzionare senza uno di essi. La sua essenza risiede in questa idea chiave.

Una volta completate le necessarie trasformazioni dei dati e i loro arricchimenti, i dati vengono rispediti dall’archivio a un sistema operativo, come un CRM o un ERP. Ciò consente ai dati arricchiti di essere integrati senza soluzione di continuità nei processi aziendali.

Quali vantaggi offre questo approccio? Il suo principale vantaggio è che i team possono prendere decisioni basate sui dati ed elaborare strategie sulla base dei dati presenti nel proprio sistema. Direttamente da questi strumenti, si possono mettere a punto segmenti o filtri che erano stati configurati durante la fase ETL/ELT, eliminando la necessità di creare report aggiuntivi o di preoccuparsi della creazione di dashboard.

Conclusione

Utilizzare dati grezzi senza applicare tecniche di trasformazione dei dati è tutt’altro che ideale se il nostro obiettivo è il progresso e la crescita. Sebbene il processo di trasformazione dei dati possa richiedere molto tempo e sforzi significativi, i vantaggi che porta giustificano ampiamente l’investimento. La chiave è selezionare la strategia giusta, i tipi di trasformazione dei dati, gli strumenti e un team esperto che guidi il percorso.

Skip to content