Iniziare come Data Scientist

Fino ad ora si è parlato in generale riguardo la Data Science e dintorni. Ma naturalmente il vero Data Scientist non vuole accontentarsi solo di teoria: anzi, la pratica è la forza trainante di questa materia. In questo articolo (abbastanza lungo) si parla proprio di questo: quali sono i passi da intraprendere per diventare un Data Scientist (e analizzare ‘sti famigerati Big Data)

Fase I: MaIoNonSoNienteDiStatistica!

Partendo dal principio (ossia, assumendo che tu, lettore, non sappia nulla sull’argomento), la prima cosa da fare per entrare in questo fantastico mondo è di rinfrescarsi (o imparare) la statistica di base. Quindi:

  • Campionamento
  • Rappresentazioni grafiche di dati
  • Probabilità base (numeri aleatori, almeno le distribuzioni Normale e Binomiale)
  • Indici di posizione (media, moda, mediana et cet.)
  • Indici di variabilità (varianza et cet.)
  • Intervalli di confidenza
  • Test di ipotesi (almeno i t-test e il chi-squared)
  • Regressione lineare semplice

Mi sarò sicuramente dimenticato qualcosa. In ogni caso questa lista rappresenta già un buon punto di partenza: consiglio di iniziare col vecchio metodo carta e penna; è molto meglio delle macchine per fissare i meccanismi matematici. Ovviamente, il modo più efficace sarebbe seguire un corso universitario di statistica base. Invece, per i pochi tra noi con abbastanza palle da procedere da soli, ci sono innumerevoli risorse, sia online che fisiche.

Come libro di testo consiglio Statistica di P. Newbold et al. Qui il libro su Amazon. Lo so, viene 40 palanche. Ne vale la pena comunque: è stato il mio primo libro di statistica ed è diventato un po’ la mia Bibbia parte I (aka Il Vecchio Testamento. Il nuovo è un altro libro di cui parlerò più avanti).

Vedo ora che in italiano non esistono siti con corsi di statistica gratuiti (magari ci faccio un pensierino di farne partire uno). Se cercate in inglese, ne troverete a camionate: uno tra i più importanti è KhanAcademy.

Fase II: La Programmazione

La statistica, come il resto della matematica, è già bella e pura di per sè. Per questo meriterebbe di essere studiata for its own sake. Ma i Data Scientist non si accontentato di contemplare la bellezza: vogliono anche averla. Per questo vengono in aiuto quegli individui oscuri che sono gli informatici: la programmazione (e le macchine) permettono alla statistica di entrare con il botto in mezzo ai dati e di generare risultati tangibili. Senza i computer, la statistica avrebbe un valore pratico molto basso (vi vorrei vedere a fare una regressione con un 1Gb di dati. A mano).

Imparare a programmare da zero senza aiuto di alcun tipo è fattibile: ci sono numerosi tutorial online, anche in italiano. Ma sarà un’impresa non semplice: il segreto per riuscirci è senza alcun dubbio la perseveranza. Imparare a programmare consiste, sostanzialmente, a smadonnare per ore ed ore cercando di trovare il bug. Che poi nel 70% dei casi, si rivela essere un errore di battitura. A quel punto smadonnerete ancora di più, rimpiangento le ore buttate al vento.

Il linguaggio con cui consiglio di inziare è R: totalmente gratuito, potete scaricarlo da qui per Windows, da qui per Mac o da qui per Linux. R è perfetto per l’analisi dei dati perchè è stato creato proprio con la statistica in mente. Essendo un linguaggio Open Source, sono disponibili una miriade di librerie che permettono al Data Scientist di eseguire azioni più disparate. Per esempio: se volessi calcolare l’indice V di Cramér non posso utilizzare il semplice R. Per farlo devo prima installare questa libreria (o pacchetto) che contiene una funzione (ossia un programma) atto al calcolo di quell’indice. R è un linguaggio interpretato e ad oggetti.

Dopo aver installato R, consiglio vivamente di scaricare ed installare questa GUI (Graphic User Interface): oltre ad essere gratis e bella esteticamente, aumenta notevolmente gli strumenti in mano all’analista. Di sequito, ecco come appare:

Screenshot di RStudio

Il linguaggio che si vede nei riquadri a sinistra è proprio R. La schermata è composta da 4 riquadri. Partendo da sinistra in alto e in senso orario:

  • Script: il programma che stiamo scrivendo
  • Workspace & Cronologia: indicano tutti gli oggetti esistenti nella sessione corrente e la cronologia dello script.
  • Files, Plot, Packages & Help: l’albero di directory della sessione, gli eventuali grafici creati, le librerie installate e la finestra di aiuto. Per installare un nuovo pacchetto, è necessario andare nella finestra Librerie, cliccare su Installa nuovo e seguire lo wizard.
  • Console: mostra il codice e i suoi  risultati quando viene eseguito.

Se non si volesse installare RStudio, bisognerà allora programmare usando la semplice GUI di R, che offre molti meno strumenti.

Una volta installati questi software, i.e. la GUI e la lingua vera e propria (o meglio il traduttore da R a linguaggio-macchina), siete pronti per partire. Nei prossimi articoli comincerò a portare degli esempi, complicati e non, di analisi dati in R [successivamente anche in Python] con tanto di codice al seguito.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.