Sono un noob in statistica, quindi potete aiutarmi, per favore, qui.
La mia domanda è la seguente: che cosa significa in realtà varianza aggregata ?
Quando cerco una formula per la varianza aggregata in Internet, trovo molta letteratura usando la seguente formula (ad esempio, qui: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Ma cosa calcola effettivamente ? Perché quando uso questa formula per calcolare la mia varianza aggregata, mi dà una risposta sbagliata.
Ad esempio, considera questi "campione genitore":
La varianza di questo esempio padre è e la sua media è \ bar {x} _p = 5 .
Supponiamo ora di dividere questo campione genitore in due sottocampioni:
- Il primo sottocampione è 2,2,2,2,2 con media e varianza .
- Il secondo sottocampione è 8,8,8,8,8 con media e varianza .
Ora, chiaramente, usando la formula sopra per calcolare la varianza pool / parent di questi due sottocampioni produrrà zero, perché e . Che cosa significa questa formula in realtà calcolare?
D'altra parte, dopo una lunga derivazione, ho scoperto che la formula che produce la varianza pool / parent corretta è:
Nella formula sopra, e .d 2 = ¯ x 2 - ˉ x p
Ho trovato una formula simile con la mia, ad esempio qui: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html e anche su Wikipedia. Anche se devo ammettere che non sembrano esattamente uguali ai miei.
Quindi di nuovo, cosa significa realmente varianza aggregata? Non dovrebbe significare la varianza del campione genitore dai due sottocampioni? O mi sbaglio completamente qui?
Grazie in anticipo.
EDIT 1: Qualcuno dice che i miei due sottocampioni sopra sono patologici poiché hanno varianza zero. Bene, potrei darti un esempio diverso. Considera questo esempio genitore:
La varianza di questo esempio padre è e la sua media è .ˉ x p = 25.5
Supponiamo ora di dividere questo campione genitore in due sottocampioni:
- Il primo sottocampione è 1,2,3,4,5 con media e varianza .S 2 1 =2.5
- Il secondo sottocampione è 46,47,48,49,50 con media e varianza .S 2 2 =2.5
Ora, se usi la "formula della letteratura" per calcolare la varianza aggregata, otterrai 2,5, il che è completamente sbagliato, perché la varianza genitore / aggregata dovrebbe essere 564,7. Invece, se usi "la mia formula", otterrai la risposta corretta.
Per favore, capisci, io uso esempi estremi qui per mostrare alla gente che la formula è davvero sbagliata. Se utilizzo "dati normali" che non presentano molte variazioni (casi estremi), i risultati di queste due formule saranno molto simili e le persone potrebbero ignorare la differenza a causa dell'errore di arrotondamento, non perché la formula stessa è sbagliato.