I fantastici Big Data e dove trovarli

Data Science non è l’unico nuovo termine germogliato nel mondo della statistica. In particolare, il primo premio per uso erroneo di queste nuove parole va ai famigerati Big Data.
Il caro lettore avrà sicuramente già sentito o letto a riguardo e ciò che avrà potuto capire sarà letteralmente inutile: descrizioni corrette del termine sono molto rare dato che è nella natura umana riempirsi la bocca con termini di cui non si capisce un belino (il caro vecchio dialetto ligure).

Ora, cosa sono i Big Data e come si definiscono? Al contrario di ciò che i profani pontificano, questo nome non definisce assolutamente un grande dataset: la dimensione notevole (quantificata in bytes e multipli) è una condizione necessaria ma non sufficiente.

Definizione

Il termine nacque nei primi anni 2000 quando il data scientist Douglas Laney formalizzò i Big Data usando le famose 4 V:

  • Volume
  • Variety (Varietà)
  • Velocity (Velocità)
  • Veracity (Veracità)

Analizzandole singolarmente:

  • Volume indica una grande dimensione del dataset in termini di bytes. Ovviamente, non esiste un valore univoco che faccia da spartiacque. Tuttavia, come linea di massima, si considerano Big Data volumi nell’ordine dei Tb e multipli.
  • Variety si riferisce alla forma di questi dati, che è molto varia: da dati numerici e strutturati (ossia ben organizzati e analizzabili dalla macchina), a stringhe di testo o video.
  • Velocity caratterizza i Big Data in quanto un dataset degno di questo aggettivo deve essere live, ossia ricevere continuamente dati, o comunque aggiornato ogni breve lasso di tempo.
  • Veracity indica invece l’accuratezza dei dati, ossia quanto questi dati siano affidabili nel misurare un certo evento/processo, che per i Big Data è generalmente molto bassa.

Come sarà dunque chiaro, per essere definito Big Data, un dataset deve essere dinamico, di enormi dimensioni, contenente dati in diversi formati e di una qualità dubbia.

Dove trovarli

Ovviamente, dataset di questo tipo sono molto rari; non tanto a causa della loro natura ma a causa delle difficoltà che insorgono nella loro gestione e raccolta. Infatti, per poter trarre vantaggio dai Big Data, sono necessarie particolari architetture di calcolo e conservazione (come Hadoop o pacchetti di parallel computing in R) che solo organizzazioni con notevoli risorse possono disporre. Inoltre, i Data Scientist addetti a Big Data devono sviluppare capacità tecniche specifiche per la gestione di tali dati.

L’industria in cui i Big Data regnano sovrani è quella delle Telecomunicazioni: ogni scambio di dati tra dispositivi genera una grande quantità di metadati (quanto è durato lo scambio, posizione geografica degli interlocutori, che tipo di scambio etc.) che vengono naturalmente salvati e analizzati dai provider per generare informazioni e prendere decisioni.
Anche l’industria finanziaria fa un uso sostanziale dei Big Data: la borsa di NY, solo per il comparto azionistico, genera 1 TB di dati.

Ogni. Singolo. Giorno.

Comunque, in generale, ogni industria che ha a che fare con un grande numero di transazioni giornaliere è un buon candidato per generare Big Data.

Qualità ed Affidabilità

Come detto sopra, una delle caratteristiche dei Big Data è di essere di dubbia qualità. Difatti, seppure in grandi volumi, molte volte questo tipo di dati contiene poco potenziale informativo: ossia è spesso difficile, se non impossibile, riuscire ad estrarne del significato.
Questo perché i processi che hanno generato questi dati sono logicamente semplici e molto comuni; in altre parole, una modellazione di tali eventi genererebbe risultati banali: un esempio di tale problema fu apportato dal VP for Product Innovation di Netflix durante una intervista, in cui ha definito i Big Data di tale azienda come 99% fatto di spazzatura. Ovvio, l’importante è riuscire a trovare il diamante dell’1%.

Ma che diavolo è ‘sta Data Science?

Data Science non è una nuova scienza. È una nuova prospettiva.


E fai bene a chiedertelo usando quell tono, perchè Data Science è solo un termine nato dal nulla, per chiamare in modo più moderno delle idee e delle tecniche preesistenti.

Il suo scopo è quello di prendere dei dati, di qualsiasi tipo, e cercare di tirarne fuori delle informazioni utili per prendere decisioni, descrivere il processo che ha generato quei dati o più semplicemente, fare delle predizioni. Per esempio, cercare di capire che tempo farà domani è un classico problema di Data Science.

Che cosa vuol dire davvero? Data Science si riferisce ad una statistica che fa pesante uso di tecniche informatiche, quali programmazione, calcolo, database e via discorrendo. Essa non è dunque nulla di nuovo nelle sue tecniche, ma lo è per come tali tecniche si relazionano tra loro: Data Science non è una nuova scienza. È una nuova prospettiva.

Per gli amanti dei grafici tra di noi, possiamo dunque raffigurarla in questo modo:

data-science

La sua genesi si puó far risalire al termine Data Analysis che J. Tukey (uno dei padri della moderna statistica) usó nel suo articolo The Future of Data Analysis per riferirsi ad una statistica altamente focalizzata sull’analisi dei dati reali. Quindi più empirica che matematica. Tuttavia sarà solo nel 1994 che il termine Data Science verrà utilizzato per la prima volta: ‘Data science, classification, and related methods’, ossia il titolo di una conferenza organizzata dall’International Federation of Classification Societies, presso Kobe in Giappone (dove per altro allevano dei manzi da sogno). Da allora, la sua diffusione è diventata esponenziale.

Ora il caro lettore si starà domandando quali applicazioni possa avere questa nuova “scienza”. Ebbene, ogni attività, umana e non, genera dati. Come accennato precedentemente, se applichiamo le tecniche di Data Science a questi dati possiamo generare informazione. In altre parole, interpretare tali dati in maniera umanamente comprensibile e permettere di fare delle predizioni o descrizioni. Un esempio di predizione? Tutti i cookies dei siti che visitate non sono altro che files che registrano le tue interazioni con le pagine internet. Mamma Google (o chi per essa) userà poi questi dati per costruire un bel modello statistico (magari una bella macchina a supporto vettoriale) e offrirti della meravigliosa pubblicità personalizzata. Un esempio di descrizione? Ogni ditta deve cercare di capire la sua struttura dei costi: utilizzando una regressione più o meno complicata, è possibile comprendere con precisione matematica quali fattori influenzano le spese di questa compagnia ed in che modo ciò avviene. Altri esempi di Data Science all’opera possono essere: valutazione dell’impatto ambientale di una fattoria eolica marina, capire se una transazione bancaria è illegale oppure no, predirre i prezzi delle azioni nel nostro portafoglio, permettere al computer di riconoscere automaticamente gli oggetti in un gruppo di immagini, costruire automobili a guida automatica oppure identificare ed aiutare in anticipo potenziali criminali prima che commettano il crimine.

Essenzialmente, ogni processo che genera dati può essere modellato con tecniche di Data Science: la fantasia è davvero l’ultima frontiera.

Che strumenti deve dunque saper usare il Data Scientist? Indubbiamente deve essere molto (e intendo MOLTO) esperto in statistica, che compone la parte teorica del campo. Dalla parte pratica invece sono necessarie tante (e intendo TANTE) ore di programmazione in un linguaggio con un buoni pacchetti statistici: R è la prima scelta, Python la seconda. Una volta padroneggiati questi strumenti si entra nel puro cosmo; ogni Data Scientist puó perfezionarsi come preferisce: imparare un linguaggio SQL per maneggiare databases, costruire API per lavorare nel dipartimento di Advertising di Mamma Google o disegnare accattivanti visualizzazioni di dati usando Processing.js.

Ultimamente, sono inoltre nati nuovi termini come Data Mining o Machine Learning; in essenza, essi si riferiscono tuttavia a sottoinsiemi tecnici della Data Science: (per il principiante questa differenza non vorrà dire nulla) Machine Learning indica, ad esempio, un gruppo di modelli (principalmente non parametrici) che costituiscono una sorta di ponte con il campo dell’Intelligenza Artificiale (AI); le reti neurali ne sono un esempio.


Data Science, in sintesi, non rappresenta un nuovo filone di ricerca o una nuova ‘scienza’: essa è semplicemente una nuova prospettiva su come utilizzare insieme tecniche scientifiche di campi differenti. Grazie a questo suo ampio bagalio di metodologie, le sue applicazioni sono svariate spaziando dal campo finanziario, all’agricoltura fino allo sport. Il suo focus tuttavia, è l’analisi di dati in forma matematica.

 

La genesi del nome:

Ci possono essere solo due gruppi di lettori che leggono questo blog:

  1. Quelli che capiscono il nome del blog.
  2. E quelli che non lo capiscono (ancora).

Se appartieni alla prima categoria, perderesti tempo a leggere questo articolo: vai! Sei libero di fare il gallo per la tua erudizione statistica (e naturalmente di leggere altri post di questo blog).

Se invece non sei riuscito a capirlo, beh, bisogna sempre cominciare da qualche parte. E se vuoi esplorare il magico mondo della Data Science, questo è il posto perfetto.

Specialmente usata per I GLM (Generalized Linear Models), la Devianza o Deviance, è una delle misure usate per descrivere quanto un modello statistico si adatta ai dati usati per costruirlo. Il suo principale ruolo è di presentare un valore oggettivo per comparare due modelli distinti. Il nome quindi, non è altro che un simpaticissimo gioco di parole nato dalla mente malata di uno statistico. Se continui a leggere finirai anche tu così un giorno. Ma ti assicuro che ne varrà la pena.

Per i più audaci, riferisco la definizione matematica all’articolo di Nelder e Wedderburn