Statistical methods for data science (2019)

distributions-fit-data

Stima del volume totale di ricerche su Google

Questo progetto riguarda l’analisi delle queries totali su Google relative alle ricerche inerenti la ​“Premier League”​ eseguite negli ultimi 12 mesi nel Regno Unito per poterne stimare il volume totale. Tutta l’analisi effettuata è avvenuta con l’ausilio del linguaggio di programmazione R.

Una volta raccolti i dati, il dataset ottenuto è stato rappresentato in modo tale da poterne valutare la distribuzione e
ipotizzare un modello che fosse congruente con l’andamento empirico dei dati, utilizzando Q-Q plot o lo Shapiro-Wilk test, che hanno escluso una distribuzione normale.

Dopodiché si è investigato le distribuzioni power-law, log-normal e exponential, utilizzando il log-Maximum Likelihood Estimation stimandone così i diversi parametri.

Infine utilizzando la Kolmogorov-Smirnov distance si è ottenuta che la distribuzione che si adatta meglio ai dati è la log-normal.

Ulteriori analisi sono state svolte per ottenere i parametri migliori per la distribuzione, successivamente si è passati alla stima del numero di ricerche e il volume delle ricerche utilizzando degli estimatori definiti.

Download del documento

Se vuoi saperne di più, avere maggiori dettagli, anche dal punto di vista statistico relativi alle procedure utilizzate, ti invito a scaricare il report qui sotto.

Follow me!

Lascia un commento