Navigare nel labirinto: il processo di trasformazione dei dati per ottenere la massima chiarezza

In linea teorica ogni azienda riconosce il valore dei dati. Tuttavia spesso non si è ancora pienamente consapevoli del percorso che i dati devono intraprendere per diventare realmente utili. E ancora meno lo si è delle potenziali sfide che possono sorgere quando i dati arrivano alle aziende così come sono, senza alcuna trasformazione.

In questi casi possedere una grande mole di dati potrebbe essere svantaggioso e il processo decisionale potrebbe trasformarsi in un’avventura impegnativa. Ciò accade spesso perché le decisioni si basano su dati incompleti, incoerenti o non corretti.

Ecco perché il data engineering è così necessario. Sebbene non sia possibile escludere completamente tutti i rischi correlati alla gestione dei dati, è comunque possibile attutirli tramite un lavoro preparatorio approfondito, chiamato “trasformazione dei dati”. Questo processo richiede passaggi precisi, presenta complessità e sfide, ed è ciò di cui parleremo in questo articolo.

Dissipiamo gli ultimi dubbi sulla necessità della trasformazione dei dati

Non solo in Italia, ancora in molti ritengono che la trasformazione dei dati sia uno spreco di tempo e fatica inutile e costoso. Esaminiamo insieme alcuni esempi che spiegano perché usare dati grezzi per analisi o previsioni non sia la best practice da seguire e prendiamo in considerazione alcuni tipi di trasformazione dei dati che meritano la tua attenzione.

Incoerenza dei dati

Se vivessimo in un mondo perfetto con un metodo unificato di immissione dati, questo problema non si presenterebbe mai. Tuttavia, la realtà ci presenta 24 fusi orari e innumerevoli varianti nel modo in cui i dati vengono registrati. È sufficiente prendere l’esempio delle date: le scriviamo come GG/MM/AA o MM/GG/AA? Separiamo i componenti con barre, trattini o punti? Come si può immaginare, persone, sistemi e regioni diverse hanno le proprie convenzioni.

Quindi anche elementi apparentemente insignificanti possono fare la differenza. Date confuse o orari registrati in modo errato possono alterare le analisi o ridurre l’accuratezza delle previsioni. Certo, ci sono ambiti per i quali queste imprecisioni hanno poca importanza ma se consideriamo l’ambito sanitario, emerge facilmente che tempi errati nei programmi di somministrazione dei farmaci o date di trattamento registrate in modo errato potrebbero causare danni significativi.

Dati incompleti

Questo è un altro problema che non può essere risolto senza le tecniche di trasformazione dei dati appropriate. Talvolta i dati estratti contengono voci mancanti, come indirizzi e-mail, numeri di telefono, prezzi dei prodotti o indirizzi fisici. Altre volte, i dati esistono ma sono chiaramente errati, come un’e-mail a cui manca il simbolo “@”.

Lavorare con dati così imperfetti non è un’opzione: richiede un intervento. La selezione di una tecnica di trasformazione dei dati per risolvere questi problemi dipende dal compito specifico che ci si presenta. Ad esempio, i numeri di telefono mancanti potrebbero essere sostituiti con segnaposto come gli zeri se non è possibile intraprendere altre azioni. In alternativa, i valori mancanti possono talvolta essere calcolati se sono disponibili sufficienti informazioni correlate per dedurli in modo accurato. Ogni scenario richiede una soluzione su misura per garantire che i dati siano completi e utilizzabili.

Dati ridondanti

Il problema opposto ai dati insufficienti è la ridondanza, fattore comune e altrettanto difficile da affrontare. Ad esempio, quando si estraggono dati manualmente o tramite un’API, spesso ci si ritrova con colonne superflue che non portano valore ma occupano prezioso spazio di archiviazione e appesantiscono le prestazioni del sistema, rallentandolo.

Prendiamo come esempio la creazione di un report sulle vendite per un anno specifico. Per creare questo report abbiamo bisogno solo dei dati di quell’anno, niente di più. Tuttavia, durante l’estrazione spesso non c’è modo di filtrare esattamente ciò di cui abbiamo bisogno alla fonte. Ciò si traduce in un flusso di informazioni estranee.

Qual è la soluzione? Eseguire la pulizia dei dati. Ciò comporta l’identificazione attenta e la rimozione di dati ridondanti che non sono rilevanti per l’analisi. In questo modo, semplifichiamo il set di dati, assicurandoci che sia conciso e pronto per analisi complete senza inutili ingombri.

Errori di battitura e duplicazioni

Siamo tutti inclini a commettere errori, ed è una cosa assolutamente normale. Quando si inseriscono dati nel sistema, una persona può sbagliare una lettera, confondere cifre o duplicarle. Un rischio del genere è sempre possibile, ecco perché dobbiamo tenerlo a mente e adottare alcune misure affinché questi errori di battitura non influenzino l’analisi.

Un esempio? Immaginiamo che il compito sia quello di generare un report sugli utili per l’anno precedente. Dopo aver esaminato i dati, notiamo un picco significativo negli indicatori finanziari per questo periodo. Ciò solleva una domanda critica: si tratta di un vero trend di crescita o deriva da un errore di immissione dati?

Risolvere questo problema non è semplice. Per determinare la verità è necessario confrontare i risultati con i periodi precedenti. Solo verificando l’accuratezza dei dati è possibile evitare di trarre conclusioni errate o prendere decisioni basate su informazioni errate. Ciò evidenzia l’importanza di processi di convalida approfonditi per garantire l’integrità dei dati.

Compatibilità dell’integrazione dei dati

Non possiamo tralasciare il fatto che i dati possano essere estratti da diverse fonti e sistemi: CRM, ERP, report Excel, Fogli Google, ecc. Ovviamente, anche i formati e la struttura dei dati archiviati in questi sistemi possono variare. Possono essere in JSON, CSV o altri formati, ognuno dei quali richiede un proprio processo di trasformazione unico.

In questo scenario, il nostro compito è analizzare, ad esempio, un file JSON per preparare i dati per un’ulteriore elaborazione. Tuttavia, eseguirlo manualmente è ben lungi dall’essere una soluzione efficiente. Invece, possiamo usare strumenti o programmi specializzati che rilevano automaticamente il formato sorgente e lo trasformano in quello desiderato in modo rapido e accurato. Ciò garantisce una preparazione dei dati fluida e semplificata per l’analisi o l’integrazione.

Non tutti i dati possono essere immessi nei modelli ML

Quando parliamo di analisi avanzata dei dati e creazione di previsioni, non possiamo fare a meno di menzionare ML, il machine learning. In particolare dobbiamo tenere presente che gli algoritmi e i modelli machine learning non accettano tutti i dati indiscriminatamente, pertanto i dati devono essere prima preparati.

Ad esempio, non è una buona opzione fornire un modello ML con dati di testo., pertanto, il nostro compito sarà trasformare le parole in cifre. Un caso semplice potrebbe riguardare un set di dati che indica la modalità di lavoro di un dipendente, “in ufficio” o “da remoto”.

Per ottimizzare l’efficienza dell’algoritmo ML, codifichiamo questo testo in valori numerici, come 0 per “in ufficio” e 1 per “in remoto”. Applicando questa tecnica di trasformazione dei dati, semplifichiamo l’attività di elaborazione per il modello ML, ne miglioriamo le prestazioni e miglioriamo significativamente l’accuratezza di analisi e previsioni.

Standard normativi

Ultimo ma non meno importante nella nostra lista è garantire la conformità alle normative sulla sicurezza. La trasformazione dei dati svolge un ruolo fondamentale nella salvaguardia delle informazioni sensibili e nella riduzione al minimo del rischio di uso improprio, anche in caso di violazione.

Implementando algoritmi di crittografia avanzati, i dati sensibili possono essere trasformati in formati estremamente difficili, se non impossibili, da decodificare senza la dovuta autorizzazione. Questo processo non solo protegge dagli accessi non autorizzati, ma garantisce anche la conformità con gli standard di protezione dei dati come GDPR o HIPAA, offrendo tranquillità alle aziende e ai loro clienti.

Nel prossimo articolo analizzeremo il processo di trasformazione dei dati step by step