I visitatori unici di un sito web seguono una legge sul potere?

Supponiamo di avere un vettore ordinato in cui il primo elemento è il numero di visite a un sito Web in un determinato periodo di tempo dall'IP univoco con il maggior numero di visite, il secondo elemento è il numero di visite dall'IP univoco con il secondo il maggior numero di visite e così via. Capisco che potrebbero esserci variazioni per sito, ma in generale esiste un modello presunto per la forma di questo vettore? Ad esempio, segue una distribuzione della legge del potere?

web power-law

— Jon Smark
fonte

Gli IP non si abbineranno particolarmente bene alle persone a causa dell'indirizzamento dinamico e di vari altri problemi (come le persone che usano più computer). Se volessi verificare queste ipotesi, probabilmente userò l'ID visitatore anziché l'indirizzo IP.

— richiemorrisroe,

No, i visitatori unici di un sito Web non seguono una legge sul potere.

Negli ultimi anni, c'è stato un crescente rigore nel testare le richieste di legge sul potere (ad esempio Clauset, Shalizi e Newman 2009). Apparentemente, le affermazioni passate spesso non erano ben testate ed era comune tracciare i dati su una scala log-log e fare affidamento sul "test del bulbo oculare" per dimostrare una linea retta. Ora che i test formali sono più comuni, molte distribuzioni risultano non seguire le leggi del potere.

I migliori due riferimenti che conosco che esaminano le visite degli utenti sul web sono Ali e Scarr (2007) e Clauset, Shalizi e Newman (2009).

Ali e Scarr (2007) hanno esaminato un campione casuale di clic degli utenti su un sito Web Yahoo e hanno concluso:

La saggezza prevalente è che la distribuzione di clic web e visualizzazioni di pagina segue una distribuzione della legge di potere senza scale. Tuttavia, abbiamo scoperto che una descrizione statisticamente significativamente migliore dei dati è la distribuzione Zipf-Mandelbrot sensibile alla scala e che le loro miscele migliorano ulteriormente l'adattamento. Le analisi precedenti presentavano tre svantaggi: hanno utilizzato una piccola serie di distribuzioni candidate, analizzato il comportamento del web degli utenti non aggiornati (circa 1998) e utilizzato metodologie statistiche discutibili. Anche se non possiamo escludere che un giorno non si possa trovare una distribuzione più adatta, possiamo affermare con certezza che la distribuzione Zipf-Mandelbrot sensibile alla scala fornisce una misura statisticamente significativamente più forte ai dati rispetto alla power-law senza scala o Zipf su una varietà di verticali dal dominio Yahoo.

Ecco un istogramma di clic di singoli utenti per un mese e i loro stessi dati su un diagramma log-log, con modelli diversi che hanno confrontato. I dati non sono chiaramente su una linea di log-log prevista da una distribuzione di energia senza scale.

Figure 2 e 4 di Ali e Scarr

Clauset, Shalizi e Newman (2009) hanno confrontato le spiegazioni della legge sul potere con ipotesi alternative usando test del rapporto di verosimiglianza e hanno concluso che sia i siti web che i collegamenti "non possono essere plausibilmente considerati una legge del potere". I loro dati per il primo erano successi web da parte dei clienti del servizio Internet America America in un solo giorno e per il secondo erano collegamenti a siti web trovati in una ricerca per indicizzazione del 1997 di circa 200 milioni di pagine web. Le immagini seguenti mostrano le funzioni di distribuzione cumulativa P (x) e i loro file di legge di potenza con massima probabilità.

inserisci qui la descrizione dell'immagine

Per entrambi questi set di dati, Clauset, Shalizi e Newman hanno scoperto che le distribuzioni di energia con ritagli esponenziali per modificare la coda estrema della distribuzione erano chiaramente migliori delle distribuzioni di legge di pura potenza e che anche le distribuzioni log-normali erano adatte. (Hanno anche esaminato le ipotesi esponenziali espanse e allungate.)

Se hai un set di dati in mano e non sei solo oziosamente curioso, dovresti adattarlo a diversi modelli e confrontarli (in R: pchisq (2 * (logLik (modello1) - logLik (modello2)), df = 1, inferiore. tail = FALSE)). Confesso di non avere idea di come modellare un modello ZM a regolazione zero. Ron Pearson ha scritto un blog sulle distribuzioni di ZM e apparentemente esiste un pacchetto R zipfR. Io, probabilmente inizierei con un modello binomiale negativo ma non sono un vero statistico (e mi piacerebbe molto le loro opinioni).

(Vorrei anche commentare @richiemorrisroe al di sopra di chi indica che i dati sono probabilmente influenzati da fattori non correlati al comportamento umano individuale, come i programmi di scansione del Web e gli indirizzi IP che rappresentano i computer di molte persone.)

Documenti citati:

— MattBagg
fonte

@MattBag, sembra interessante, ci proverò su questo caso stats.stackexchange.com/q/41286/13201

— FredrikD