I fantastici Big Data e dove trovarli

Data Science non è l’unico nuovo termine germogliato nel mondo della statistica. In particolare, il primo premio per uso erroneo di queste nuove parole va ai famigerati Big Data.
Il caro lettore avrà sicuramente già sentito o letto a riguardo e ciò che avrà potuto capire sarà letteralmente inutile: descrizioni corrette del termine sono molto rare dato che è nella natura umana riempirsi la bocca con termini di cui non si capisce un belino (il caro vecchio dialetto ligure).

Ora, cosa sono i Big Data e come si definiscono? Al contrario di ciò che i profani pontificano, questo nome non definisce assolutamente un grande dataset: la dimensione notevole (quantificata in bytes e multipli) è una condizione necessaria ma non sufficiente.

Definizione

Il termine nacque nei primi anni 2000 quando il data scientist Douglas Laney formalizzò i Big Data usando le famose 4 V:

  • Volume
  • Variety (Varietà)
  • Velocity (Velocità)
  • Veracity (Veracità)

Analizzandole singolarmente:

  • Volume indica una grande dimensione del dataset in termini di bytes. Ovviamente, non esiste un valore univoco che faccia da spartiacque. Tuttavia, come linea di massima, si considerano Big Data volumi nell’ordine dei Tb e multipli.
  • Variety si riferisce alla forma di questi dati, che è molto varia: da dati numerici e strutturati (ossia ben organizzati e analizzabili dalla macchina), a stringhe di testo o video.
  • Velocity caratterizza i Big Data in quanto un dataset degno di questo aggettivo deve essere live, ossia ricevere continuamente dati, o comunque aggiornato ogni breve lasso di tempo.
  • Veracity indica invece l’accuratezza dei dati, ossia quanto questi dati siano affidabili nel misurare un certo evento/processo, che per i Big Data è generalmente molto bassa.

Come sarà dunque chiaro, per essere definito Big Data, un dataset deve essere dinamico, di enormi dimensioni, contenente dati in diversi formati e di una qualità dubbia.

Dove trovarli

Ovviamente, dataset di questo tipo sono molto rari; non tanto a causa della loro natura ma a causa delle difficoltà che insorgono nella loro gestione e raccolta. Infatti, per poter trarre vantaggio dai Big Data, sono necessarie particolari architetture di calcolo e conservazione (come Hadoop o pacchetti di parallel computing in R) che solo organizzazioni con notevoli risorse possono disporre. Inoltre, i Data Scientist addetti a Big Data devono sviluppare capacità tecniche specifiche per la gestione di tali dati.

L’industria in cui i Big Data regnano sovrani è quella delle Telecomunicazioni: ogni scambio di dati tra dispositivi genera una grande quantità di metadati (quanto è durato lo scambio, posizione geografica degli interlocutori, che tipo di scambio etc.) che vengono naturalmente salvati e analizzati dai provider per generare informazioni e prendere decisioni.
Anche l’industria finanziaria fa un uso sostanziale dei Big Data: la borsa di NY, solo per il comparto azionistico, genera 1 TB di dati.

Ogni. Singolo. Giorno.

Comunque, in generale, ogni industria che ha a che fare con un grande numero di transazioni giornaliere è un buon candidato per generare Big Data.

Qualità ed Affidabilità

Come detto sopra, una delle caratteristiche dei Big Data è di essere di dubbia qualità. Difatti, seppure in grandi volumi, molte volte questo tipo di dati contiene poco potenziale informativo: ossia è spesso difficile, se non impossibile, riuscire ad estrarne del significato.
Questo perché i processi che hanno generato questi dati sono logicamente semplici e molto comuni; in altre parole, una modellazione di tali eventi genererebbe risultati banali: un esempio di tale problema fu apportato dal VP for Product Innovation di Netflix durante una intervista, in cui ha definito i Big Data di tale azienda come 99% fatto di spazzatura. Ovvio, l’importante è riuscire a trovare il diamante dell’1%.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.