Rapporto standard tra cookie e "visitatori"?


31

Come notato in un recente post sul blog , vediamo una grande discrepanza tra i "visitatori" di Google Analytics e i "visitatori" di Quantcast.

Inoltre, per motivi che non abbiamo mai capito, Google Analytics ottiene solo numeri più grandi di Quantcast. Al momento GA sta mostrando più visitatori (15 milioni) su stackoverflow.com da solo di quanto su Quantcast su tutta la rete (14 milioni):

Perché? Non lo so. Google Analytics a volte perde i cookie o Quantcast manca ai visitatori. Il conteggio è una scienza inesatta.

Riteniamo che ciò sia dovuto al fatto che Quantcast utilizza un rapporto più prudente tra cookie e visitatori . Mentre Google Analytics potrebbe considerare ogni cookie un "visitatore", Quantcast considererà ogni "1.2" cookie solo un "visitatore". Questo ha senso per me, poiché le persone possono accedere ai nostri siti da più computer, più browser, eccetera.

Ho due domande strettamente correlate:

  1. Esiste un rapporto standard accettato tra i cookie e i visitatori? Questa è ovviamente una scienza inesatta, ma c'è qualche regola empirica emergente?

  2. Esiste un modo più accurato per contare i "visitatori" di un sito Web diverso dall'affidarsi ai cookie del browser? O sarà solo una specie di crapshoot di stima del massimo sforzo, non importa come lo misuri?


Quantcast utilizza sicuramente i cookie, giusto? Non vanno semplicemente su indirizzo IP o qualcosa del genere?
DisgruntledGoat

@disgruntledgoat Ho appena controllato il sito Web: "Quantcast fornisce dati sul pubblico sia per i conteggi dei cookie unici che per le persone".
Matthew Brookes,

@DisgruntledGoat controlla proprio questa pagina. Ha i cookie da quantserve.com.
Yahel,

Risposte:


14

Quantcast mi ha inviato un'e-mail:

Hai detto che c'era un delta abbastanza sostanziale tra i tuoi numeri GA e i tuoi numeri QC. Anche se questo non accade spesso, succede e ci sono diverse ragioni per cui ciò può accadere. Ad esempio, teniamo conto dei cookie di terze parti e degli aggiornamenti automatici e GA no. Chiediamo inoltre agli editori di posizionare il nostro tag nella parte inferiore della pagina per conformarsi agli standard MRC e IAB. Se gli altri tag di misurazione sono più in alto nella pagina, potrebbero attivarsi se non quelli di Quantcast. (Siamo l'unico servizio di misurazione del traffico accreditato MRC). Inoltre, i numeri non saranno mai esattamente gli stessi a causa delle considerazioni sul fuso orario: usiamo una funzione di normalizzazione e GA è fisso.

Se vuoi saperne di più su come determiniamo i nostri numeri, controlla: http://www.quantcast.com/how-we-do-it . Abbiamo anche white paper sui dati del pubblico corretti dai cookie e sulla nostra metodologia disponibile qui.

Esaminando i white paper, vedo che stanno effettivamente facendo ciò che Jeff suggerisce: sfogliare i numeri "ufficiali" per ottenere qualcosa che pensano sia più vicino al vero numero di persone. Hanno un White Paper sull'audience corretta con i cookie (link PDF) che implica che il loro sistema è piuttosto elaborato, non semplice come la semplice divisione per un numero magico:

Il programma Quantcast Quantiified Publisher cattura ogni mese oltre 75 miliardi di eventi di consumo dei media, generati da oltre 1,4 miliardi di cookie (dati a giugno 2008). Inoltre, molti dei nostri partner di Publisher quantificato condividono con noi identificatori anonimi indipendenti dai cookie. Il nostro modello include anche diversi pannelli che forniscono punti di riferimento e calibrazione basati sulle persone che sono privi di cancellazione dei cookie. Triangolare attraverso questa massa di dati con diversi processi di raccolta, distorsioni e problemi. I nostri modelli tengono conto della frequenza delle visite, dei periodi di tempo, della probabilità di utilizzo di più computer e persino dell'impatto di più persone che utilizzano lo stesso computer per fornire stime basate sulle persone. Il nostro modello per la traduzione di cookie univoci per le persone è stato validato utilizzando campioni di hold-out e set di dati indipendenti. Inoltre, il nostro modello è dinamico e ricalibrato su base continuativa per riflettere la natura in evoluzione dei modelli di traffico Internet.


2
Interessante. Quest'ultimo estratto è più informativo (e persuasivo) del primo. GA non deve tenere conto dei cookie di terze parti, poiché utilizza cookie proprietari. Sì, le differenze di fuso orario modificheranno numeri precisi, ma è molto improbabile che si verifichino differenze di misurazione significative nell'arco di mesi.
Yahel,

27

C'è un altro fattore in gioco con il sottotitolo di Quantcast: utilizzano cookie di terze parti (cookie forniti dal .quantserve.comdominio), mentre Google Analytics utilizza cookie proprietari ( stackexchange.com, ecc.)

Questo è piuttosto cruciale, poiché alcuni browser (in particolare Safari, ma più recentemente Firefox e Chrome) disabilitano i cookie di terze parti come impostazione predefinita e molti altri possono scegliere individualmente le impostazioni sulla privacy che escludono i cookie di terze parti. Ciò significa che esiste un sottoinsieme della popolazione che non verrà mai tracciato dai cookie di QuantCast. Inerentemente, ciò significa che Google Analytics restituirà sempre un numero di visitatori più elevato.

Direi che non esiste una regola empirica. Come praticante di analisi, direi che la ricerca di un "vero" conteggio dei visitatori è senza speranza e si concentra invece sulle visite stesse. Ad esempio, per il tuo account Google Analytics, ho almeno 8 visitatori diversi, avendo accesso a StackOverflow da Chrome, Safari e Firefox sul mio laptop di lavoro, sul mio laptop personale, sul mio telefono e sul mio iPad. Tutti i servizi di analisi contano in modi diversi e quindi restituiscono numeri significativamente diversi.

Anche con una perfetta implementazione, Google Analytics mostrerà quasi sempre un numero di visite inferiore rispetto a un sistema di analisi basato su log del server, ma mostrerà un numero di visite più elevato rispetto a un sistema basato su cookie di terze parti come Quantcast. L'importante non è guardare i totali grezzi, ma le tendenze che ogni metodo mostra nei suoi punti di forza. Quindi, non confrontare mai i numeri di Quantcast con i numeri di Google Analytics; usa invece i numeri all'interno dei contesti in cui sono stati raccolti.

Un altro problema potrebbe essere che l'implementazione di Google Analytics non è corretta, dal momento che configurarla per il tuo tipo di configurazione a più domini e sottodomini può essere un incubo se non eseguita correttamente e rigorosamente, il che potrebbe comportare il conteggio di un singolo browser come più visitatori, gonfiando esso stesso il tuo conteggio. Questo non è mai un problema per Quantcast, in quanto tutti i cookie sono impostati sul loro dominio di una terza parte.


Google Chrome sembra anche bloccare i cookie di terze parti per impostazione predefinita.
Mr White

7

Il rapporto tra cookie e visitatori unici è generalmente compreso tra 1,3 e 1,7 per i siti con oltre un milione di visite.

Mentre yc01 ha ragione sul fatto che GA utilizza cookie proprietari e cookie di terze parti, noi di RealSelf.com utilizziamo due fornitori di servizi di analisi di prima parte (GA e Comscore Direct) e GA mostra ancora il 30% in più di visitatori unici assoluti rispetto ai visitatori unici di Comscore.

Comscore mostra solo visitatori unici per paese, quindi per confrontare GA con Comscore dobbiamo calcolare il numero di visitatori unici assoluti con sede negli Stati Uniti come segue:

Visite negli Stati Uniti / Visite globali * Utenti unici assoluti

(1.150.110 / 1.650.979) * 1.273.059 = 886.842 Utenti unici con sede negli Stati Uniti

Al contrario, Comscore riporta 680.900 utenti unici con sede negli Stati Uniti. Quindi GA mostra il 30,2% in più.

Comscore ha costruito la propria attività cercando di essere accurato, mentre GA è principalmente un modo gratuito per tracciare e ottimizzare i siti che utilizzano AdWords e AdSense. Comscore ha un pannello di persone che usano anche per stimare il traffico e usano quel pannello per determinare un numero medio di cookie per persona. Con più persone che utilizzano dispositivi mobili (il nostro utilizzo mobile è del 15%), ha senso che i cookie unici sopravvalutino il numero di persone uniche.


"Il rapporto tra cookie e visitatori unici è generalmente compreso tra 1,3 e 1,7 per i siti con oltre un milione di visite." È una figura pubblicata da Comscore?
Ciaran,

questo è sorprendentemente accurato per noi; Ho eseguito le UserSessionstatistiche della tabella su alcuni siti e vanno da 2,0 (Stack Overflow) a 1,46 (webapps.se) con tutto il resto. 1.6 sembra un default molto sano per i siti tecnologici.
Jeff Atwood,

4

Ecco un recente studio (4 maggio 2011 - ieri quando scrivo questo) di MediaMind con "Cookie Inflazione Moltiplicatori" per diversi mercati:

Il loro fattore di inflazione calcolato è compreso tra 2,2 per la Germania e 3,0 per gli Stati Uniti.


questo è eccellente - esattamente il tipo di riferimento che stavo cercando
Jeff Atwood,

2

Forse il tuo numero di visitatori GA è più gonfiato di un normale sito a causa della natura più tecnica del suo pubblico? Ad esempio, i programmatori, in particolare gli sviluppatori Web, hanno maggiori probabilità di utilizzare una vasta gamma di browser e quindi aumentare il conteggio dei cookie.

Per la domanda 1, immagino che, come con molte metriche, è meglio usare i dati del proprio sito invece di cercare standard globali poiché gli aggregati possono essere fuorvianti. Un modo per ottenere un cookie per il conteggio reale dei visitatori potrebbe essere quello di contare il numero di cookie visualizzati da ciascun utente registrato e quindi ricavarne il numero.

Per quanto riguarda il numero 2, teoricamente il modo migliore per contare i visitatori reali sarebbe costringere tutti a registrare un account. Dato che ovviamente non è una buona idea, potresti guardare alla normalizzazione. Ad esempio, è possibile utilizzare i cookie medi per la metrica degli utenti registrati che ho suggerito sopra e applicarli ai numeri dei visitatori segnalati da GA.


questo è un GRANDE punto. Su Stack Overflow, al momento abbiamo 531.484 sessioni di cui 261.547 indirizzate a utenti unici, quindi sostanzialmente 2 cookie per ogni utente.
Jeff Atwood,

-1

Penso che l'IP sia affidabile ... quando creo un sistema statistico come GA con Python, utilizzo un metodo come questo

  • invia cookie al browser e acquisisci tutti i dati degli agenti nel database
  • modo semplice se la nuova visita ha un cookie non è una nuova visita, quindi lo salvo come nuova visita (inoltre ho assegnato la data e il tempo di ritardo per trovare una nuova visita se l'utente ripete il sito di visita dopo 2 ore)
  • salva l'IP dell'utente e alcuni ID per questo utente e IP e cookie (anche il suo salvataggio nei cookie)
  • arriva un nuovo utente e non ha cookie ... questo IP è nuovo? sì? OK, il suo nuovo utente prende solo user agent e IP / no? quante volte arriva questo utente? più del limite? visita non davvero nuova, non più con questo user agent? OK, questo è nuovo ...: D

questo metodo ha errori ma non è male e dati quasi validi ... (dipende anche dal tempo di ritardo per trovare un nuovo utente (ritardo tra 2 visite) e tempo di prova per gli utenti che non hanno cookie)


5
Come potrebbe gestire, ad esempio, un'azienda con molti sviluppatori diversi che accedono a StackOverflow da dietro un NAT? Saranno considerati tutti come un visitatore?
Svish,

3
L'aspetto IP di questo è davvero imperfetto. L'indirizzo IP non è un identificatore univoco.
Yahel,

c'è tempo di prova per questo ... controlliamo l'agente e altre cose e possiamo aggiungere un ip più di 100 volte ... il suo modo suggerito per trovare un vero utente dietro un NAT
Mohammad Efazati
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.