Cosa significa "effettivamente" la varianza raggruppata?


15

Sono un noob in statistica, quindi potete aiutarmi, per favore, qui.

La mia domanda è la seguente: che cosa significa in realtà varianza aggregata ?

Quando cerco una formula per la varianza aggregata in Internet, trovo molta letteratura usando la seguente formula (ad esempio, qui: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

Sp2=S12(n1-1)+S22(n2-1)n1+n2-2

Ma cosa calcola effettivamente ? Perché quando uso questa formula per calcolare la mia varianza aggregata, mi dà una risposta sbagliata.

Ad esempio, considera questi "campione genitore":

2,2,2,2,2,8,8,8,8,8

La varianza di questo esempio padre è e la sua media è \ bar {x} _p = 5 .Sp2=10X¯p=5

Supponiamo ora di dividere questo campione genitore in due sottocampioni:

  1. Il primo sottocampione è 2,2,2,2,2 con media X¯1=2 e varianza S12=0 .
  2. Il secondo sottocampione è 8,8,8,8,8 con media X¯2=8 e varianza S22=0 .

Ora, chiaramente, usando la formula sopra per calcolare la varianza pool / parent di questi due sottocampioni produrrà zero, perché S1=0 e S2=0 . Che cosa significa questa formula in realtà calcolare?

D'altra parte, dopo una lunga derivazione, ho scoperto che la formula che produce la varianza pool / parent corretta è:

Sp2=S12(n1-1)+n1d12+S22(n2-1)+n2d22n1+n2-1

Nella formula sopra, e .d 2 = ¯ x 2 - ˉ x pd1=X1¯-X¯pd2=X2¯-X¯p

Ho trovato una formula simile con la mia, ad esempio qui: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html e anche su Wikipedia. Anche se devo ammettere che non sembrano esattamente uguali ai miei.

Quindi di nuovo, cosa significa realmente varianza aggregata? Non dovrebbe significare la varianza del campione genitore dai due sottocampioni? O mi sbaglio completamente qui?

Grazie in anticipo.


EDIT 1: Qualcuno dice che i miei due sottocampioni sopra sono patologici poiché hanno varianza zero. Bene, potrei darti un esempio diverso. Considera questo esempio genitore:

1,2,3,4,5,46,47,48,49,50

La varianza di questo esempio padre è e la sua media è .ˉ x p = 25.5Sp2=564.7x¯p=25.5

Supponiamo ora di dividere questo campione genitore in due sottocampioni:

  1. Il primo sottocampione è 1,2,3,4,5 con media e varianza .S 2 1 =2.5x¯1=3S12=2.5
  2. Il secondo sottocampione è 46,47,48,49,50 con media e varianza .S 2 2 =2.5x¯2=48S22=2.5

Ora, se usi la "formula della letteratura" per calcolare la varianza aggregata, otterrai 2,5, il che è completamente sbagliato, perché la varianza genitore / aggregata dovrebbe essere 564,7. Invece, se usi "la mia formula", otterrai la risposta corretta.

Per favore, capisci, io uso esempi estremi qui per mostrare alla gente che la formula è davvero sbagliata. Se utilizzo "dati normali" che non presentano molte variazioni (casi estremi), i risultati di queste due formule saranno molto simili e le persone potrebbero ignorare la differenza a causa dell'errore di arrotondamento, non perché la formula stessa è sbagliato.


Risposte:


13

In parole povere, la varianza aggregata è una stima (imparziale) della varianza all'interno di ciascun campione, sotto l'ipotesi / vincolo che tali varianze siano uguali.

Questo è spiegato, motivato e analizzato in dettaglio nella voce di Wikipedia per la varianza aggregata .

Essa non stimare la varianza di una nuova "meta-campione" formata concatenando i due campioni individuali, come si suppone. Come hai già scoperto, la stima richiede una formula completamente diversa.


Il presupposto di "uguaglianza" (cioè, la stessa popolazione ha realizzato quei campioni) non è necessario in generale per definire ciò che è - "aggregato". Pooling significa semplicemente media, omnibus (vedi il mio commento a Tim).
ttnphns,

@ttnphns Penso che l'assunzione di uguaglianza sia necessaria per dare alla varianza aggregata un significato concettuale (che l'OP ha richiesto) che va oltre la semplice descrizione verbale dell'operazione matematica che esegue sulle varianze di esempio. Se le variazioni della popolazione non sono considerate uguali, non è chiaro cosa potremmo considerare la varianza aggregata come una stima. Certo, potremmo solo pensarlo come una fusione delle due varianze e lasciarlo a quello, ma questo non è affatto illuminante in assenza di qualsiasi motivazione per voler combinare le varianze in primo luogo.
Jake Westfall,

Jake, non sono in disaccordo, vista la specifica domanda del PO, ma volevo parlare della definizione della parola "raggruppata", ecco perché ho detto "in generale".
ttnphns,

@JakeWestfall La tua risposta è la migliore risposta finora. Grazie. Anche se non sono ancora chiaro su una cosa. Secondo Wikipedia, la varianza aggregata è un metodo per stimare la varianza di diverse popolazioni diverse quando la media di ciascuna popolazione può essere diversa , ma si può presumere che la varianza di ogni popolazione sia la stessa .
Hanciong,

@JakeWestfall: Quindi, se stiamo calcolando la varianza aggregata da due diverse popolazioni con mezzi diversi, che cosa calcola effettivamente? Perché la prima varianza sta misurando la variazione rispetto alla prima media, e la seconda varianza è rispetto alla seconda media. Non so quali informazioni aggiuntive si possano ottenere dal calcolo.
Hanciong,

10

La varianza raggruppata viene utilizzata per combinare varianze di campioni diversi prendendo la loro media ponderata, per ottenere la varianza "complessiva". Il problema con il tuo esempio è che si tratta di un caso patologico, poiché ciascuno dei sottocampioni ha una varianza uguale a zero. Tale caso patologico ha ben poco in comune con i dati che di solito incontriamo, dal momento che c'è sempre qualche variabilità e se non c'è variabilità, non ci importa di tali variabili poiché non contengono informazioni. È necessario notare che questo è un metodo molto semplice e ci sono modi più complicati di stimare la varianza nelle strutture gerarchiche dei dati che non sono inclini a tali problemi.

Per quanto riguarda il tuo esempio nella modifica, mostra che è importante dichiarare chiaramente le tue assunzioni prima di iniziare l'analisi. Supponiamo che tu abbia punti dati in gruppi, lo indicheremo come , dove l' -esimo indice in sta per casi e -esimo indice sta per indici di gruppo. Esistono diversi scenari, puoi presumere che tutti i punti provengano dalla stessa distribuzione (per semplicità, supponiamo che la distribuzione sia normale),k x 1 , 1 , x 2 , 1 , , x n - 1 , k , x n , k i x i , j jnKX1,1,X2,1,...,Xn-1,K,Xn,KioXio,jj

(1)Xio,j~N(μ,σ2)

si può presumere che ciascuno dei sottocampioni abbia una propria media

(2)Xio,j~N(μj,σ2)

o, la sua stessa varianza

(3)Xio,j~N(μ,σj2)

o, ciascuno di essi ha i propri parametri distinti

(4)Xio,j~N(μj,σj2)

A seconda delle ipotesi, un metodo particolare può o potrebbe non essere adeguato per l'analisi dei dati.

Nel primo caso, non saresti interessato a stimare le varianze all'interno del gruppo, dal momento che assumeresti che siano tutte uguali. Tuttavia, se si aggregasse la varianza globale dalle varianze di gruppo, si otterrebbe lo stesso risultato utilizzando la varianza aggregata poiché la definizione di varianza è

Vun'r(X)=1n-1Σio(Xio-μ)2

e nello stimatore in pool lo devi prima moltiplicare per , quindi sommarli e infine dividere per .n-1n1+n2-1

Nel secondo caso, significa diverso, ma hai una varianza comune. Questo esempio è il più vicino al tuo esempio nella modifica. In questo scenario, la varianza aggregata stimerebbe correttamente la varianza globale, mentre se si variasse la stima sull'intero set di dati, si otterrebbero risultati errati, dal momento che non si stava tenendo conto del fatto che i gruppi hanno mezzi diversi.

Nel terzo caso non ha senso stimare la varianza "globale" poiché si presume che ciascuno dei gruppi abbia una propria varianza. Potresti essere ancora interessato a ottenere la stima per l'intera popolazione, ma in tal caso sia (a) il calcolo delle varianze individuali per gruppo, sia (b) il calcolo della varianza globale dall'intero set di dati, possono darti risultati fuorvianti . Se hai a che fare con questo tipo di dati, dovresti pensare di utilizzare un modello più complicato che tiene conto della natura gerarchica dei dati.

Il quarto caso è il più estremo e abbastanza simile al precedente. In questo scenario, se si desidera stimare la media e la varianza globali, è necessario un modello diverso e un diverso insieme di ipotesi. In tal caso, supponeresti che i tuoi dati siano di struttura gerarchica e oltre alle medie e alle varianze all'interno del gruppo, esiste una varianza comune di livello superiore, ad esempio ipotizzando il modello seguente

(5)Xio,j~N(μj,σj2)μj~N(μ0,σ02)σj2~iosol(α,β)

dove ogni campione ha i suoi mezzi e varianze che sono essi stessi da distribuzioni comuni. In tal caso, useresti un modello gerarchico che prende in considerazione sia la variabilità di livello inferiore che quella di livello superiore. Per saperne di più su questo tipo di modelli, puoi consultare il libro Bayesian Data Analysis di Gelman et al. e il loro esempio di otto scuole . Questo è tuttavia un modello molto più complicato del semplice stimatore di varianza aggregato.μj,σj2


Ho aggiornato la mia domanda con diversi esempi. In questo caso, la risposta dalla "formula della letteratura" è ancora sbagliata. Capisco che di solito abbiamo a che fare con "dati normali" in cui non esiste un caso estremo come il mio esempio sopra. Tuttavia, come matematici, non dovresti preoccuparti di quale formula sia effettivamente corretta, invece di quale formula si applica nel "problema comune / quotidiano"? Se una formula è fondamentalmente sbagliata, dovrebbe essere scartata, soprattutto se esiste un'altra formula che vale in tutti i casi, patologica o no.
Hanciong,

Tra l'altro hai detto che ci sono modi più complicati per stimare la varianza. Potresti mostrarmi questi modi? Grazie
Hanciong,

2
Tim, varianza aggregata non è la varianza totale del "campione combinato". In statistica, "raggruppato" significa media ponderata (quando parliamo di quantità medie come varianze, pesi come n 's) o semplicemente sommato (quando parliamo di somme come scatter, somme di quadrati). Per favore, riconsidera la tua terminologia (scelta delle parole) nella risposta.
ttnphns,

1
Sebbene offra l'argomento attuale, ecco una domanda interessante sul concetto di varianza "comune". stats.stackexchange.com/q/208175/3277
ttnphns

1
Hanciong. Insisto sul fatto che il concetto di "pooling" in generale e persino specificamente di "varianza aggregata" non ha bisogno, in generale, di ipotesi come: i gruppi provenivano da popolazioni con varianze uguali. Il pooling è semplicemente fusione (media ponderata o somma). È in ANOVA e in circostanze simili che aggiungiamo tale presupposto statistico.
ttnphns,

1

Il problema è che se si concatenano i campioni e si stima la loro varianza, si presume che provengano dalla stessa distribuzione e quindi abbiano la stessa media. Ma siamo generalmente interessati a diversi campioni con media diversa. ha senso?


0

Il caso d'uso della varianza aggregata è quando si hanno due campioni dalle distribuzioni che:

  • può avere mezzi diversi, ma
  • che ti aspetti di avere una varianza vera uguale .

Un esempio di ciò è una situazione in cui si misura la lunghezza del naso di Alice volte per un campione e si misura la lunghezza del naso di Bob volte per il secondo. È probabile che questi producano una serie di misurazioni diverse sulla scala di millimetri, a causa dell'errore di misurazione. Ma ti aspetti che la varianza nell'errore di misurazione sia la stessa indipendentemente dal naso che misuri.nm

In questo caso, il rilevamento della varianza aggregata fornirebbe una stima migliore della varianza nell'errore di misurazione rispetto al rilevamento della varianza di un solo campione.


Grazie per la tua risposta, ma ancora non capisco una cosa. I primi dati ti danno la varianza rispetto alla lunghezza del naso di Alice, e il secondo dati ti danno la varianza rispetto alla lunghezza del naso di Bob. Se stai calcolando una varianza aggregata da tali dati, cosa significa in realtà? Perché la prima varianza sta misurando la variazione rispetto a quella di Alice, e la seconda rispetto a quella di Bob, quindi quali informazioni aggiuntive possiamo ottenere calcolando la loro varianza aggregata? Sono numeri completamente diversi.
Hanciong,

0

Attraverso la varianza aggregata non stiamo cercando di stimare la varianza di un campione più grande, utilizzando campioni più piccoli. Quindi, i due esempi che hai fornito non si riferiscono esattamente alla domanda.

La varianza raggruppata è necessaria per ottenere una stima migliore della varianza della popolazione, da due campioni che sono stati prelevati casualmente da quella popolazione e fornire stime di varianza diverse.

Esempio, stai cercando di valutare la varianza delle abitudini al fumo dei maschi a Londra. Campioni due volte, 300 maschi da Londra. Alla fine ottieni due varianze (probabilmente un po 'diverse!). Da allora, hai fatto un campionamento casuale equo (il migliore per le tue capacità! Dato che il campionamento casuale vero è quasi impossibile), hai tutti i diritti per dire che entrambe le varianze sono vere stime puntuali della varianza della popolazione (maschi di Londra in questo caso).

Ma come è possibile? cioè due diverse stime dei punti !! Quindi, andiamo avanti e troviamo una stima puntuale comune che è la varianza aggregata. Non è altro che una media ponderata di due stime dei punti, in cui i pesi sono il grado di libertà associato a ciascun campione.

Spero che questo chiarisca.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.