Ma che diavolo è ‘sta Data Science?

Data Science non è una nuova scienza. È una nuova prospettiva.


E fai bene a chiedertelo usando quell tono, perchè Data Science è solo un termine nato dal nulla, per chiamare in modo più moderno delle idee e delle tecniche preesistenti.

Il suo scopo è quello di prendere dei dati, di qualsiasi tipo, e cercare di tirarne fuori delle informazioni utili per prendere decisioni, descrivere il processo che ha generato quei dati o più semplicemente, fare delle predizioni. Per esempio, cercare di capire che tempo farà domani è un classico problema di Data Science.

Che cosa vuol dire davvero? Data Science si riferisce ad una statistica che fa pesante uso di tecniche informatiche, quali programmazione, calcolo, database e via discorrendo. Essa non è dunque nulla di nuovo nelle sue tecniche, ma lo è per come tali tecniche si relazionano tra loro: Data Science non è una nuova scienza. È una nuova prospettiva.

Per gli amanti dei grafici tra di noi, possiamo dunque raffigurarla in questo modo:

data-science

La sua genesi si puó far risalire al termine Data Analysis che J. Tukey (uno dei padri della moderna statistica) usó nel suo articolo The Future of Data Analysis per riferirsi ad una statistica altamente focalizzata sull’analisi dei dati reali. Quindi più empirica che matematica. Tuttavia sarà solo nel 1994 che il termine Data Science verrà utilizzato per la prima volta: ‘Data science, classification, and related methods’, ossia il titolo di una conferenza organizzata dall’International Federation of Classification Societies, presso Kobe in Giappone (dove per altro allevano dei manzi da sogno). Da allora, la sua diffusione è diventata esponenziale.

Ora il caro lettore si starà domandando quali applicazioni possa avere questa nuova “scienza”. Ebbene, ogni attività, umana e non, genera dati. Come accennato precedentemente, se applichiamo le tecniche di Data Science a questi dati possiamo generare informazione. In altre parole, interpretare tali dati in maniera umanamente comprensibile e permettere di fare delle predizioni o descrizioni. Un esempio di predizione? Tutti i cookies dei siti che visitate non sono altro che files che registrano le tue interazioni con le pagine internet. Mamma Google (o chi per essa) userà poi questi dati per costruire un bel modello statistico (magari una bella macchina a supporto vettoriale) e offrirti della meravigliosa pubblicità personalizzata. Un esempio di descrizione? Ogni ditta deve cercare di capire la sua struttura dei costi: utilizzando una regressione più o meno complicata, è possibile comprendere con precisione matematica quali fattori influenzano le spese di questa compagnia ed in che modo ciò avviene. Altri esempi di Data Science all’opera possono essere: valutazione dell’impatto ambientale di una fattoria eolica marina, capire se una transazione bancaria è illegale oppure no, predirre i prezzi delle azioni nel nostro portafoglio, permettere al computer di riconoscere automaticamente gli oggetti in un gruppo di immagini, costruire automobili a guida automatica oppure identificare ed aiutare in anticipo potenziali criminali prima che commettano il crimine.

Essenzialmente, ogni processo che genera dati può essere modellato con tecniche di Data Science: la fantasia è davvero l’ultima frontiera.

Che strumenti deve dunque saper usare il Data Scientist? Indubbiamente deve essere molto (e intendo MOLTO) esperto in statistica, che compone la parte teorica del campo. Dalla parte pratica invece sono necessarie tante (e intendo TANTE) ore di programmazione in un linguaggio con un buoni pacchetti statistici: R è la prima scelta, Python la seconda. Una volta padroneggiati questi strumenti si entra nel puro cosmo; ogni Data Scientist puó perfezionarsi come preferisce: imparare un linguaggio SQL per maneggiare databases, costruire API per lavorare nel dipartimento di Advertising di Mamma Google o disegnare accattivanti visualizzazioni di dati usando Processing.js.

Ultimamente, sono inoltre nati nuovi termini come Data Mining o Machine Learning; in essenza, essi si riferiscono tuttavia a sottoinsiemi tecnici della Data Science: (per il principiante questa differenza non vorrà dire nulla) Machine Learning indica, ad esempio, un gruppo di modelli (principalmente non parametrici) che costituiscono una sorta di ponte con il campo dell’Intelligenza Artificiale (AI); le reti neurali ne sono un esempio.


Data Science, in sintesi, non rappresenta un nuovo filone di ricerca o una nuova ‘scienza’: essa è semplicemente una nuova prospettiva su come utilizzare insieme tecniche scientifiche di campi differenti. Grazie a questo suo ampio bagalio di metodologie, le sue applicazioni sono svariate spaziando dal campo finanziario, all’agricoltura fino allo sport. Il suo focus tuttavia, è l’analisi di dati in forma matematica.

 

La genesi del nome:

Ci possono essere solo due gruppi di lettori che leggono questo blog:

  1. Quelli che capiscono il nome del blog.
  2. E quelli che non lo capiscono (ancora).

Se appartieni alla prima categoria, perderesti tempo a leggere questo articolo: vai! Sei libero di fare il gallo per la tua erudizione statistica (e naturalmente di leggere altri post di questo blog).

Se invece non sei riuscito a capirlo, beh, bisogna sempre cominciare da qualche parte. E se vuoi esplorare il magico mondo della Data Science, questo è il posto perfetto.

Specialmente usata per I GLM (Generalized Linear Models), la Devianza o Deviance, è una delle misure usate per descrivere quanto un modello statistico si adatta ai dati usati per costruirlo. Il suo principale ruolo è di presentare un valore oggettivo per comparare due modelli distinti. Il nome quindi, non è altro che un simpaticissimo gioco di parole nato dalla mente malata di uno statistico. Se continui a leggere finirai anche tu così un giorno. Ma ti assicuro che ne varrà la pena.

Per i più audaci, riferisco la definizione matematica all’articolo di Nelder e Wedderburn