Se ho calcolato correttamente, la regressione logistica asintoticamente ha la stessa potenza del test t. Per vedere questo, annota la sua probabilità logaritmica e calcola le aspettative del suo Hessian al suo massimo globale (le sue stime negative della matrice varianza-covarianza della soluzione ML). Non preoccuparti della solita parametrizzazione logistica: è più semplice parametrizzarla con le due probabilità in questione. I dettagli dipenderanno esattamente dal modo in cui testerai il significato di un coefficiente di regressione logistica (esistono diversi metodi).
Il fatto che questi test abbiano poteri simili non dovrebbe essere troppo sorprendente, perché la teoria del chi quadro per le stime ML si basa su una normale approssimazione alla probabilità logaritmica e il test t si basa su una normale approssimazione alle distribuzioni di proporzioni. Il nocciolo della questione è che entrambi i metodi fanno le stesse stime delle due proporzioni ed entrambe le stime hanno gli stessi errori standard.
Un'analisi reale potrebbe essere più convincente. Adottiamo una terminologia generale per i valori in un determinato gruppo (A o B):
- è la probabilità di un 1.p
- è la dimensione di ogni serie di pareggi.n
- è il numero di serie di pareggi.m
- è la quantità di dati.N= m n
- (uguale a 0 o 1 ) è il valore della j esima risultato nel i esima serie di estrazioni.Kio j01jesimoioesimo
- è il numero totale di quelli nel i esima serie di estrazioni.Kioioesimo
- è il numero totale di quelli.K
La regressione logistica è essenzialmente lo stimatore ML di . Il suo logaritmo è dato dap
log( L ) = k log( p ) + ( N- k ) log( 1 - p ) .
I suoi derivati rispetto al parametro sonop
∂log( L )∂p= kp- N- k1 - p e
- ∂2log( L )∂p2= kp2+ N- k( 1 - p )2.
Fissando il primo a zero rendimenti ML stima p = k / N e collegare quello nel reciproco della seconda espressione restituisce la varianza p ( 1 - p ) / N , che è il quadrato della errore standard.p^= k / Np^( 1 - p^) / N
La statistica t sarà ottenuta dagli stimatori in base ai dati raggruppati per serie di pareggi; vale a dire, come la differenza dei mezzi (uno dal gruppo A e l'altro dal gruppo B) divisa per l'errore standard di quella differenza, che si ottiene dalle deviazioni standard dei mezzi. Diamo un'occhiata alla media e alla deviazione standard per un dato gruppo, quindi. L'uguale medi , che è identico al ML stimatore p . La deviazione standard in questione è la deviazione standard dei mezzi di disegno; cioè, è la deviazione standard dell'insieme di k i / n . Ecco il nocciolo della questione, quindi esploriamo alcune possibilità.k / Np^Kio/ n
Supponiamo che i dati non sono raggruppate in richiama affatto: cioè, ed m = N . Il k i sono i mezzi di tiraggio. Il loro campione di varianza uguale a N / ( N - 1 ) volte p ( 1 - p ) . Da ciò ne consegue che l'errore standard è identico all'errore standard ML a parte un fattore di √n = 1m = NKioN/ (N- 1 )p^( 1 - p^) , che è essenzialmente1quandoN=1800. Pertanto - a parte questa piccola differenza - tutti i test basati sulla regressione logistica saranno gli stessi di un test t e raggiungeremo essenzialmente la stessa potenza.N/ (N- 1 )---------√1N= 1800
Quando i dati sono raggruppati, il (vero) varianza della è uguale a p ( 1 - p ) / n perché le statistiche k i rappresentano la somma dei n Bernoulli ( p variabili), ciascuno con varianza p ( 1 - p ) . Pertanto l' errore standard previsto della media di m di questi valori è la radice quadrata di p ( 1 - p ) / n / m =Kio/ np ( 1 - p ) / nKionpp ( 1 - p )m , proprio come prima.p ( 1 - p ) / n / m = p ( 1 - p ) / N
Il numero 2 indica che la potenza del test non deve variare in modo apprezzabile con la ripartizione dei sorteggi (cioè con come e n sono soggetti a m n = N ), a parte forse un effetto abbastanza piccolo dalla regolazione nel campione varianza (a meno che tu non sia stato così sciocco da usare pochissime serie di pareggi all'interno di ciascun gruppo).mnm n = N
Simulazioni limitate per confrontare con p = 0,74 (con 10.000 iterazioni ciascuna) che coinvolgono m = 900 , n = 1 (essenzialmente regressione logistica); m = n = 30 ; e m = 2 , n = 450 (massimizzando la regolazione della varianza del campione) lo dimostrano: la potenza (a α = 0,05p = 0,70p = 0,74m = 900 , n = 1m = n = 30m = 2 , n = 450α = 0,05, unilaterale) nei primi due casi è 0,59 mentre nel terzo, dove il fattore di aggiustamento apporta un cambiamento sostanziale (ora ci sono solo due gradi di libertà anziché 1798 o 58), scende a 0,36. Un altro test che confronta con p = 0,52 fornisce potenze rispettivamente di 0,22, 0,21 e 0,15: ancora una volta, osserviamo solo una leggera caduta dal non raggruppamento in pareggi (= regressione logistica) al raggruppamento in 30 gruppi e un sostanziale calo a soli due gruppi.p = 0,50p = 0,52
La morale di questa analisi è:
- Non si perde molto quando si partizionano i valori di dati in un gran numero m di gruppi relativamente piccoli di "disegna".Nm
- mn
- N