Come si dovrebbe interpretare il confronto di medie di diverse dimensioni del campione?


49

Prendi il caso delle valutazioni dei libri su un sito web. Il libro A è valutato da 10.000 persone con una valutazione media di 4,25 e la varianza . Allo stesso modo il libro B è valutato da 100 persone e ha una valutazione di 4.5 con .σ = 0,25σ=0.5σ=0.25

Ora, a causa delle grandi dimensioni del campione del libro A, la "media si è stabilizzata" a 4,25. Ora per 100 persone, può darsi che se più persone leggono il libro B la valutazione media può scendere a 4 o 4,25.

  • come si dovrebbe interpretare il confronto dei mezzi da diversi campioni e quali sono le migliori conclusioni che si possono / dovrebbero trarre?

Ad esempio, possiamo davvero dire che il libro B è meglio del libro A.


Sei specificamente interessato al contesto del rating?
Jeromy Anglim,

@JeromyAnglim - Hmmm ... probabilmente. Non sono sicuro. Questo è l'esempio più comune. Cosa avevi in ​​mente?
Dottorato di ricerca

2
Vedi la mia risposta sui sistemi di valutazione bayesiana di seguito. I contesti di classificazione applicati in genere hanno centinaia o migliaia di oggetti da classificare e l'obiettivo è spesso quello di formare la migliore stima della classificazione per l'oggetto in base alle informazioni disponibili. Questo è molto diverso da un semplice confronto di due gruppi, come potresti dire in un esperimento medico con due gruppi.
Jeromy Anglim,

Risposte:


57

È possibile utilizzare un test t per valutare se ci sono differenze nei mezzi. Le diverse dimensioni del campione non causano problemi per il test t e non richiedono che i risultati vengano interpretati con particolare attenzione. In definitiva, puoi persino confrontare una singola osservazione con una popolazione infinita con una distribuzione, una media e una SD note; per esempio, qualcuno con un QI di 130 è più intelligente del 97,7% delle persone. Una cosa da notare, tuttavia, è che per una data (cioè, la dimensione totale del campione), la potenza viene massimizzata se il gruppo è uguale; con dimensioni di gruppo molto diverse, non si ottiene una risoluzione aggiuntiva con ogni osservazione aggiuntiva. nNn

Per chiarire il mio punto sul potere, ecco una simulazione molto semplice scritta per R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

Si noti che in tutti i casi , ma che nel primo caso & , nel secondo caso & e nell'ultimo caso e . Si noti inoltre che la differenza media standardizzata / processo di generazione dei dati è stato lo stesso in tutti i casi. Tuttavia, mentre il test era "significativo" il 70% delle volte per il campione 50-50, la potenza era del 56% con 75-25 e solo del 33% quando le dimensioni del gruppo erano 90-10. n 1 = 50 n 2 = 50 n 1 = 75 n 2 = 25 n 1 = 90 n 2 = 10N=100n1=50n2=50n1=75n2=25n1=90n2=10

Ci penso per analogia. Se vuoi conoscere l'area di un rettangolo e il perimetro è fisso, l'area verrà ingrandita se la lunghezza e la larghezza sono uguali (cioè se il rettangolo è un quadrato ). D'altra parte, quando la lunghezza e la larghezza divergono (man mano che il rettangolo si allunga), l'area si restringe.


il potere è massimizzato ?? Non sono sicuro di aver capito. Potresti fornire un esempio, se possibile?
Dottorato di ricerca

5
Il motivo per cui il test t è in grado di gestire dimensioni del campione ineguali è che tiene conto dell'errore standard delle stime delle medie per ciascun gruppo. Questa è la deviazione standard della distribuzione del gruppo divisa per la radice quadrata delle dimensioni del campione del gruppo. Il gruppo con dimensioni del campione molto più grandi avrà l'errore standard più piccolo se le deviazioni standard della popolazione sono uguali o quasi.
Michael Chernick,

@gung - Non sono sicuro di sapere davvero quale 'lingua' è scritta questa simulazione. Sto indovinando 'R'? e sto ancora cercando di decifrarlo :)
Dottorato di ricerca

2
Il codice è per R. L'ho commentato per renderlo più facile da seguire. Puoi semplicemente copiarlo e incollarlo in R ed eseguirlo da solo, se hai R; la set.seed()funzione assicurerà di ottenere un output identico. Fammi sapere se è ancora troppo difficile da seguire.
gung - Ripristina Monica

8
L'analogia con l'area in questa risposta non è solo suggestiva di ciò che sta succedendo, è esattamente al punto . C'è un senso molto diretto in cui (data una dimensione del campione totale fissa - cioè metà del 'perimetro' di un rettangolo ), massimizzando il prodotto (l '"area") massimizza la precisione del stima della differenza di mezzi (e quindi, potere di identificare non è zero). È algebricamente banale, quindi non affronterò ulteriormente il punto, ma non avresti potuto scegliere un'analogia più adatta. n 1 × n 2 n 1 n 2N=n1+n2n1×n2n1n2
Glen_b,

10

Oltre alla risposta menzionata da @gung riferendoti al test t, sembra che potresti essere interessato ai sistemi di valutazione bayesiani (ad esempio, ecco una discussione ). I siti Web possono utilizzare tali sistemi per classificare gli articoli dell'ordine che variano nel numero di voti ricevuti. In sostanza, tali sistemi funzionano assegnando una valutazione che è un composto della valutazione media di tutti gli articoli più la media del campione di valutazioni per l'oggetto specifico. All'aumentare del numero di valutazioni, il peso assegnato alla media per l'oggetto aumenta e il peso assegnato alla valutazione media di tutti gli articoli diminuisce. Magari dai un'occhiata alle medie bayesiane .

Ovviamente le cose possono diventare molto più complesse quando si affrontano una vasta gamma di problemi come il voto di frode, i cambiamenti nel tempo, ecc.


Dolce. Non ne ho mai sentito parlare. Lo esaminerò sicuramente. Forse è quello che sto cercando, dopo tutto :)
Dottorato di ricerca
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.