Sovradispersione nella regressione logistica

Sto cercando di capire il concetto di sovradispersione nella regressione logistica. Ho letto che la sovraispersione è quando la varianza osservata di una variabile di risposta è maggiore di quanto ci si aspetterebbe dalla distribuzione binomiale.

Ma se una variabile binomiale può avere solo due valori (1/0), come può avere una media e una varianza?

Sto bene nel calcolare la media e la varianza dei successi da x numero di prove di Bernoulli. Ma non posso avvolgere la testa attorno al concetto di media e varianza di una variabile che può avere solo due valori.

Qualcuno può fornire una panoramica intuitiva di:

Il concetto di media e varianza in una variabile che può avere solo due valori
Il concetto di sovradispersione in una variabile che può avere solo due valori

— Luciano
fonte

Aggiungi 20 valori di , dove 10 sono e 10 sono . Puoi dividerlo per 20? Puoi calcolare l'sd ?

y

$y$

0

$0$

1

$1$

y

$y$

— Sycorax dice di reintegrare Monica il

In parole povere quindi credo che sia media = 0,5, deviazione standard = 0,11.

— luciano,

Supponiamo che la mia variabile di risposta abbia avuto 100 successi e 5 falliti. È probabile che questo sia sovradisperso?

— luciano,

luciano, hai bisogno di più di una realizzazione dell'esperimento per determinare se è sovradisperso.

— Underminer

Risposte:

Una variabile casuale binomiale con prove e probabilità di successo può assumere più di due valori. La variabile casuale binomiale rappresenta il numero di successi in quelle prove e può infatti assumere valori diversi ( ). Quindi, se la varianza di quella distribuzione è maggiore di quanto ci si aspetterebbe dalle ipotesi binomiali (forse ci sono zeri in eccesso per esempio), questo è un caso di sovradispersione. $N$ $p$ $N$ $N+1$ $0,1,2,3,...,N$

L'overdispersione non ha senso per una variabile casuale di Bernoulli ( ) $N = 1$

Nel contesto di una curva di regressione logistica, puoi considerare una "piccola porzione", o raggruppamento, attraverso una ristretta gamma di valori predittivi come una realizzazione di un esperimento binomiale (forse abbiamo 10 punti nella fetta con un certo numero di successi e fallimenti). Anche se non abbiamo veramente più prove per ciascun valore predittore e stiamo osservando le proporzioni anziché i conteggi grezzi, ci aspetteremmo comunque che la proporzione di ciascuna di queste "sezioni" sia vicina alla curva. Se queste "sezioni" hanno la tendenza ad essere molto distanti dalla curva, c'è troppa variabilità nella distribuzione. Quindi raggruppando le osservazioni, crei realizzazioni di variabili casuali binomiali piuttosto che guardare i dati 0/1 singolarmente.

L'esempio che segue proviene da un'altra domanda su questo sito. Supponiamo che le linee blu rappresentino la proporzione attesa nell'intervallo delle variabili predittive. Le celle blu indicano i casi osservati (in questo caso le scuole). Ciò fornisce una rappresentazione grafica di come può apparire la sovradispersione . Si noti che ci sono difetti nell'interpretazione delle celle del grafico seguente, ma fornisce un'idea di come si possa manifestare un'eccessiva dispersione.

— Underminer
fonte

Ma sono interessato alla sovradispersione nel contesto della regressione logistica. Per ogni valore di una variabile predittore nella regressione logistica, non ci sono n prove, c'è solo una prova. E il risultato di quella prova è il successo o il fallimento

— Luciano,

Ho appena aggiunto un paragrafo per affrontare l'intuizione alla base della sovradispersione nel contesto della regressione lineare.

— Underminer

Underminer, sto cercando di immaginare cosa intendi con questa frase: "Se queste" sezioni "hanno la tendenza ad essere lontane dalla curva, c'è troppa variabilità nella distribuzione". Ecco cosa penso che intendi: alla fetta sulla curva dove c'è una probabilità 0,1-0,3 di successo ci sono molti successi e alla fetta sulla curva dove c'è una probabilità 0,7-0,9 di successo ci sono molti di fallimenti. È questo che intendi e rappresenterebbe un'eccessiva dispersione?

— luciano,

@luciano Questa è l'idea giusta. Ma tieni presente che deve esserci un equilibrio di "sezioni" che sono troppo al di sopra e troppo al di sotto della curva per consentire in primo luogo l'adattamento. Quindi potrebbe essere più realistico affermare che una fetta intorno allo 0,7 ha troppi successi (forse il 100%) e la fetta successiva intorno allo 0,75 ha troppo pochi (50%), quindi 0,80 ne ha troppi (100%), ecc. Quindi c'è più varianza osservata di quanto ci si aspetterebbe.

— Underminer,

Ti ho spiegato bene

— Luciano,

Come già notato da altri, l'overdispersione non si applica nel caso di una variabile di Bernoulli (0/1), poiché in quel caso la media determina necessariamente la varianza. Nel contesto della regressione logistica, ciò significa che se il risultato è binario, non è possibile stimare un parametro di dispersione. (NB Questo non significa che puoi ignorare la potenziale correlazione tra osservazioni solo perché il tuo risultato è binario!)

Se, d'altra parte, il tuo risultato è un insieme di proporzioni, puoi stimare un parametro di dispersione (che, sebbene spesso maggiore di uno, può anche essere inferiore a uno) dividendo la statistica chi-quadrato di Pearson (o la devianza ) dai gradi di libertà residui.

Ricorda, la regressione logistica con un risultato puramente binario è solo un caso speciale del modello di regressione logistica più generale in cui l'indice binomiale può superare uno (e può variare tra le osservazioni). Pertanto, la questione se si sta adattando o meno un modello di regressione logistica non è correlata alla questione se i dati siano sovradispersi.

— Phil Schumm
fonte