Come possiamo mai conoscere la varianza della popolazione?


10

Nel test di ipotesi, una domanda comune è qual è la varianza della popolazione? La mia domanda è: come possiamo mai conoscere la varianza della popolazione? Se conoscessimo l'intera distribuzione, potremmo anche conoscere la media dell'intera popolazione. Allora qual è il punto di verifica delle ipotesi?


Alcune pubblicazioni pertinenti: nber.org/papers/w20325
dv_bn,

Si può conoscere la varianza senza sapere nulla della media. Ad esempio, la varianza può essere recuperata dai quadrati di tutte le differenze di valori nella popolazione, ma tali differenze non forniscono informazioni sulla media. Indipendentemente da ciò, non vedo come le dichiarazioni e le domande in questo post portano alla domanda stessa sul punto di verifica delle ipotesi.
whuber

Risposte:


10

Non sono sicuro che questo problema si verifichi "spesso" al di fuori di Statistiche 101 (introduzione alle statistiche). Non sono sicuro di averlo mai visto. D'altra parte, presentiamo il materiale in questo modo quando insegniamo corsi introduttivi, perché fornisce una progressione logica: inizi con una semplice situazione in cui esiste un solo gruppo e conosci la varianza, quindi vai avanti dove non lo fai conoscere la varianza, quindi passare a dove ci sono due gruppi (ma con uguale varianza), ecc.

Per affrontare un punto leggermente diverso, ci chiedi perché dovremmo preoccuparci del test delle ipotesi se conoscessimo la varianza, poiché quindi dobbiamo anche conoscere la media. L'ultima parte è ragionevole, ma la prima parte è un malinteso: il mezzo che sapremmo sarebbe il mezzo sotto l'ipotesi nulla. Questo è ciò che stiamo testando. Considera l'esempio dei punteggi QI di @ StephanKolassa. Sappiamo che la media è 100 e la deviazione standard è 15; quello che stiamo testando è se il nostro gruppo (diciamo, mancini rosse o forse studenti di statistica introduttiva) differisce da quello.


2
(+1) Forse emerge di più quando il "campionamento da una popolazione" è un modo di pensare al processo di generazione dei dati, piuttosto che qualcosa da prendere alla lettera. Conoscere la precisione di uno strumento di misura, ad esempio.
Scortchi - Ripristina Monica

Gung, come praticante con una carriera di oltre 20 anni, questo problema è emerso nella mia esperienza più frequentemente di quanto sembri. Non sto suggerendo che sia venuto fuori "frequentemente", solo che si sono verificati i dibattiti. Tuttavia, e per quanto riguarda Stat 101, il più delle volte le discussioni sono state aringhe rosse che si sono risolte poco o niente riguardo ai dettagli di uno studio o di un progetto - qualcuno voleva solo creare l'apparenza di intelligenza nel porre la domanda.
Mike Hunter,

1
@Johnson, suppongo che dipenda dagli argomenti su cui lavori.
gung - Ripristina Monica

4

Spesso non conosciamo la varianza della popolazione in quanto tale - ma abbiamo una stima molto attendibile da un campione diverso. Ad esempio, ecco un esempio per valutare se il peso medio dei pinguini è diminuito, dove utilizziamo la media di un campione di piccole dimensioni, ma la varianza di un campione indipendente più ampio. Naturalmente, ciò presuppone che la varianza sia la stessa in entrambe le popolazioni.

Un esempio diverso potrebbe essere rappresentato dalle classiche scale IQ. Questi sono normalizzati per avere una media di 100 e una deviazione standard di 15, usando campioni molto grandi. Potremmo quindi prendere un campione specifico (diciamo 50 rosse per mancini) e chiederci se il loro QI medio è significativamente maggiore di 100, usando 15 ^ 2 come varianza "nota". Naturalmente, ancora una volta, questo fa sorgere la domanda se la varianza sia davvero uguale tra i due campioni - dopo tutto, stiamo già testando se i mezzi sono diversi, quindi perché le varianze dovrebbero essere uguali?

In conclusione: i tuoi dubbi sono validi e di solito i test con momenti noti servono solo a scopi didattici. Nei corsi di statistica, di solito vengono immediatamente seguiti con test utilizzando i momenti stimati .


2

L'unico modo per conoscere la varianza della popolazione è misurare l'intera popolazione.

Tuttavia, misurare un'intera popolazione spesso non è fattibile; richiede risorse tra cui denaro, strumenti, personale e accesso. Per questo motivo campioniamo le popolazioni; che sta misurando un sottoinsieme della popolazione. Il processo di campionamento dovrebbe essere progettato con cura e con l'obiettivo di creare una popolazione campione rappresentativa della popolazione; dando due considerazioni chiave: dimensione del campione e tecnica di campionamento.

Esempio di giocattoli: desideri stimare la varianza di peso per la popolazione adulta della Svezia. Ci sono circa 9,5 milioni di svedesi, quindi non è probabile che tu possa uscire e misurarli tutti. Pertanto è necessario misurare una popolazione campione da cui è possibile stimare la vera varianza all'interno della popolazione.

Esci per assaggiare la popolazione svedese. Per fare questo, vai a trovarti nel centro di Stoccolma, e così accade proprio fuori dalla famosa catena di hamburger svedese fittizia Burger Kungen . In effetti, piove e fa freddo (deve essere estate), quindi ti trovi all'interno del ristorante. Qui pesa quattro persone.

È probabile che il tuo campione non rifletta molto bene la popolazione della Svezia. Quello che hai è un campione di persone a Stoccolma, che si trovano in un ristorante di hamburger. Questa è una tecnica di campionamento scadente perché è probabile che distorca il risultato non dando una rappresentazione equa della popolazione che si sta tentando di stimare. Inoltre, hai una piccola dimensione del campione, quindi hai un alto rischio di scegliere quattro persone che si trovano agli estremi della popolazione; o molto leggero o molto pesante. Se hai campionato 1000 persone, hai meno probabilità di causare un errore di campionamento; è molto meno probabile che scelga 1000 persone insolite piuttosto che sceglierne quattro insolite. Una dimensione del campione più grande ti darebbe almeno una stima più accurata della media e della varianza di peso tra i clienti di Burger Kungen.

inserisci qui la descrizione dell'immagine

L'istogramma illustra l'effetto della tecnica di campionamento, la distribuzione grigia potrebbe rappresentare la popolazione della Svezia che non mangia al Burger Kungen (media 85 kg), mentre il rosso potrebbe rappresentare la popolazione dei clienti del Burger Kungen (media 100 kg) e i trattini blu potrebbero essere le quattro persone che campionate. Una corretta tecnica di campionamento dovrebbe pesare equamente la popolazione, e in questo caso circa il 75% della popolazione, quindi il 75% dei campioni misurati, non dovrebbe essere cliente di Burger Kungen.

Questo è un grosso problema con molti sondaggi. Ad esempio, le persone che probabilmente risponderanno a sondaggi sulla soddisfazione dei clienti, o sondaggi d'opinione alle elezioni, tendono ad essere sproporzionatamente rappresentate da persone con visioni estreme; le persone con opinioni meno forti tendono ad essere più riservate nell'esprimerle.

Il punto del test di ipotesi è ( non sempre ), ad esempio, per verificare se due popolazioni differiscono l'una dall'altra. Ad esempio, i clienti di Burger Kungen pesano più degli svedesi che non mangiano al Burger Kungen? La capacità di testarlo con precisione dipende dalla corretta tecnica di campionamento e dalle dimensioni sufficienti del campione.


Il codice R per testare rende tutto ciò possibile:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

risultati:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

Sì, è vero, ma in quei casi c'è anche il ridimensionamento su una media fissa, quindi non produce una situazione in cui vi è una media sconosciuta e una varianza nota. Inoltre, il ridimensionamento viene eseguito dopo che tutti i valori sono noti.
Ben - Ripristina Monica il

1

L'unico esempio realistico a cui riesco a pensare quando la media è sconosciuta ma la varianza è nota è quando c'è un campionamento casuale di punti su un'ipersfera (in qualsiasi dimensione) con un raggio fisso e un centro sconosciuto. Questo problema ha una media sconosciuta (centro della sfera) ma una varianza fissa (raggio quadrato della sfera). Non sono a conoscenza di altri esempi realistici in cui vi sia una media sconosciuta ma una varianza nota. (E per essere chiari: il semplice fatto di avere una stima della varianza esterna da altri dati non è un esempio di una varianza nota. Inoltre, se si dispone di questa stima della varianza da altri dati, perché non si ha anche una stima media corrispondente da quello stesso dati?)

A mio avviso, i corsi statistici introduttivi che insegnano i test con una media sconosciuta e una varianza nota sono un anacronismo e sono erroneamente considerati come un moderno strumento di insegnamento. Pedagogicamente, è molto meglio iniziare direttamente con il T-test per il caso di una media e varianza sconosciute e trattare lo z-test come un'approssimazione asintotica a ciò che vale quando i gradi di libertà sono grandi (o no anche la briga di insegnare lo z-test). Il numero di situazioni in cui ci sarebbe una varianza nota ma una media sconosciuta è vanificante, ed è generalmente fuorviante per gli studenti introdurre questo caso (follemente raro).


0

A volte nei problemi applicati, ci sono ragioni presentate dalla fisica, dall'economia, ecc. Che ci parlano della varianza e non hanno incertezza. Altre volte, la popolazione può essere limitata e può capitare di conoscere alcune cose su tutti, ma è necessario campionare ed eseguire statistiche per apprendere il resto.

In generale, la tua preoccupazione è abbastanza valida.


5
Ho difficoltà a immaginare un esempio di fisica o di economia in cui conosceremmo la varianza, ma non la media. Simile per distribuzioni discrete. Potresti fare un esempio concreto o due?
Stephan Kolassa,

@StephanKolassa Credo che le misure sperimentali di fisica possano essere un esempio - potremmo avere un processo o un dispositivo di misurazione che ha una varianza ben nota (errore di misurazione), quindi quando si misura un evento particolare, si può presumere che la varianza sia la stessa ma tu può solo stimare la media vera.
Peteris,

2
@Peteris: questo ha senso - ma sembra più il caso che noto , della varianza (del tuo strumento) essendo stata stimata su "campioni di calibrazione" precedenti. Mi aspetterei che una varianza derivata teoricamente senza incertezza (!) Sia una cosa diversa.
Stephan Kolassa,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.