Ho un set di dati di osservazioni campione, memorizzate come conteggi all'interno dei contenitori di intervallo. per esempio:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Ora, trovare una stima della media da questo è abbastanza semplice. Basta usare la media (o mediana) di ciascun intervallo come osservazione e il conteggio come un peso e trovare la media ponderata:
Per il mio caso di test, questo mi dà 53,82.
La mia domanda ora è: qual è il metodo corretto per trovare la deviazione standard (o varianza)?
Attraverso la mia ricerca, ho trovato diverse risposte, ma non sono sicuro che, se del caso, sia effettivamente appropriato per il mio set di dati. Sono stato in grado di trovare la seguente formula sia su un'altra domanda qui che su un documento NIST casuale .
Il che dà una deviazione standard di 8,35 per il mio caso di test. Tuttavia, l'articolo di Wikipedia sui mezzi ponderati fornisce sia la formula:
e
Che danno deviazioni standard di 8,66 e 7,83, rispettivamente, per il mio caso di test.
Aggiornare
Grazie a @whuber che ha suggerito di esaminare le correzioni di Sheppard e i tuoi commenti utili relativi a loro. Sfortunatamente, ho difficoltà a capire le risorse che posso trovare al riguardo (e non riesco a trovare buoni esempi). Ricapitolando, capisco che quanto segue è una stima distorta della varianza:
Capisco anche che la maggior parte delle correzioni standard per il bias sono per campioni casuali diretti di una distribuzione normale. Pertanto, vedo due potenziali problemi per me:
- Questi sono campioni casuali raggruppati (che, ne sono abbastanza sicuro, è dove arrivano le correzioni di Sheppard.)
- Non è noto se i dati siano o meno destinati a una distribuzione normale (quindi presumo di no, il che, ne sono abbastanza sicuro, invalida le correzioni di Sheppard.)
Quindi, la mia domanda aggiornata è; Qual è il metodo appropriato per gestire la distorsione imposta dalla "semplice" formula di deviazione / varianza standard ponderata su una distribuzione non normale? Più precisamente per quanto riguarda i dati aggregati.
Nota: sto usando i seguenti termini:
- è la varianza ponderata
- è il numero di osservazioni. (ovvero il numero di bin)
- è il numero di pesi diversi da zero. (ovvero il numero di bin con conteggi)
- sono i pesi (cioè i conteggi)
- sono le osservazioni. (cioè il bidone significa)
- è la media ponderata.