SD più grande della media, scala non negativa


9

Mi è stato dato un articolo che riportava uno studio molto simile a quello che il mio laboratorio desidera eseguire. Ma ho notato che per la variabile di interesse, Durata, le SD sono più grandi della media ... poiché questa è la durata misurata in minuti non può mai essere negativa e questo mi sembra molto strano. Questo è successo in 2 studi riportati, di seguito è uno.

Oltre a ciò, questo è un design misto. Controllo v Trattamento (tra i gruppi) e Tempo 1, Tempo 2, Tempo 3 (ripetere le misure). Ecco i mezzi (SD), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... gestivano un ANOVA e riportavano un p <.001.

Mi è stato chiesto di utilizzare questo come base per un'analisi di potenza per determinare la dimensione del campione per il nostro studio. Sono abbastanza sicuro che ciò indichi che i dati non sono normali o hanno valori anomali e non mi sento a mio agio nel determinare la dimensione del campione in base a questo. Sono appena fuori dalla base?


Sei sicuro che siano intervalli di confidenza SD e non al 95% che potrebbero essere più simili a 3 * SD. Sembra che quelle SD abbiano le stesse dimensioni dei mezzi. È davvero difficile dire quale sia la dimensione del campione poiché non sappiamo quali effetti sono stati inclusi in quegli errori o anche quale sia la statistica. Se si trattasse solo di contare le statistiche, ovvero la distribuzione di Poisson, inclusa la media sulla SD dovrebbe essere come 1 / Sqrt (N). Tuttavia ciò implicherebbe N = 1 (o pochi al massimo). Puoi darci maggiori informazioni su cosa sono queste statistiche?
Dave31415

Inoltre, la distribuzione normale ha una media e una SD completamente indipendenti l'una dall'altra. Penso che forse intendevi la distribuzione di Poisson.
Dave31415

2
Con durate non negative, di solito mi aspetto una distribuzione distorta. Le SD paragonabili alla media sono perfettamente possibili e non sorprendono affatto. Quale distribuzione si presuma meglio per altri calcoli non può essere consigliata senza ulteriori informazioni, ma non sceglierei Poisson come prima ipotesi, ma piuttosto gamma o lognormale.
Nick Cox,

Come osserva @NickCox, con le durate sarei sorpreso se la SD non fosse più grande della media (se non ci fosse censura). Puoi anche prendere in considerazione la distribuzione di Weibull. L'analisi della potenza dovrà probabilmente essere basata sulla simulazione. In una nota diversa, immagino che un ANOVA non fosse valido con dati del genere.
gung - Ripristina Monica

1
Per un set di dati di numeri non negativi, il coefficiente di variazione - il rapporto tra la deviazione standard e la media - può assumere valori grandi come con il valore massimo che si verifica in casi estremi quando tutti i numeri sono tranne uno (vedere questa domanda per i dettagli). Pertanto, la deviazione standard che supera la media non dovrebbe essere considerata un caso eccezionale che richiede molte spiegazioni. O ( n0O(n)0
Dilip Sarwate,

Risposte:


5

È possibile che la deviazione standard superi la media con dati non negativi o strettamente positivi

Descriverei il caso dei tuoi dati come la deviazione standard vicina alla media (non tutti i valori sono più grandi e quelli più grandi sono generalmente vicini). Per i dati non negativi, indica abbastanza chiaramente che i dati sono inclinati (ad esempio, la distribuzione gamma con coefficiente di variazione = 1 sarebbe la distribuzione esponenziale, quindi se i dati fossero gamma, apparirebbero da qualche parte quasi esponenziali)

Tuttavia, con quel tipo di dimensione del campione, ANOVA potrebbe non essere particolarmente influenzato da questo; l'incertezza nella stima della varianza aggregata sarà piuttosto piccola, quindi potremmo considerare che tra il CLT (per i mezzi) e il teorema di Slutsky (per la stima della varianza sul denominatore), un ANOVA probabilmente funzionerà abbastanza bene, dal momento che tu ' Avrà un chi-quadrato asintotico, per il quale l'ANOVA-F con il suo grande denominatore-gradi di libertà sarà una buona approssimazione. (vale a dire che dovrebbe avere una ragionevole robustezza di livello e poiché i mezzi non sono così lontani dalla costante, il potere non dovrebbe essere influenzato troppo dall'eteroschedasticità)

Detto questo, se il tuo studio avrà una dimensione del campione più piccola, potresti fare meglio a guardare usando un test diverso (forse un test di permutazione o uno più adatto per dati distorti forse uno basato su un GLM). La modifica del test potrebbe richiedere una dimensione del campione leggermente più grande di quella che otterresti per un ANOVA diritto.

Con i dati originali è possibile eseguire un'analisi della potenza con un modello / un'analisi adeguati. Anche in assenza dei dati originali, si potrebbero fare ipotesi più plausibili sulla distribuzione (forse una varietà di essi) e studiare l'intera curva di potenza (o, più semplicemente, solo il tasso di errore di tipo I e la potenza a qualsiasi dimensione di effetto è di interesse). È possibile utilizzare una serie di ipotesi ragionevoli, che danno un'idea di quale potere può essere raggiunto in circostanze plausibili e di quanto potrebbe essere necessario aumentare le dimensioni del campione.


4

Hai ragione nel concludere che i dati non sono normali. Se i dati fossero normali, ci aspetteremmo che circa il 16% delle osservazioni sia inferiore alla media meno la deviazione standard. Con una SD più grande della media questo numero è negativo e dichiari che non possono esserci numeri negativi, quindi ciò che vedi non è coerente con i dati normalmente distribuiti. I valori SD sono possibili, ma solo se la distribuzione è molto distorta (cosa comune nelle durate).

Sono d'accordo che la scelta di una dimensione del campione basata sull'ipotesi che i dati siano normali non è una buona idea, ma se puoi scoprire di più sul processo e trovare una distribuzione distorta corretta (una distribuzione gamma come una possibilità) che è un presupposto ragionevole, allora potresti usarlo per determinare la dimensione del campione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.