Dimensione del campione per la regressione logistica?


26

Voglio fare un modello logistico dai miei dati del sondaggio. È un piccolo sondaggio di quattro colonie residenziali in cui sono stati intervistati solo 154 intervistati. La mia variabile dipendente è "transizione soddisfacente al lavoro". Ho scoperto che, tra i 154 intervistati, 73 hanno affermato di essere passati in modo soddisfacente al lavoro, mentre il resto no. Quindi la variabile dipendente è di natura binaria e ho deciso di utilizzare la regressione logistica. Ho sette variabili indipendenti (tre continue e quattro nominali). Una linea guida suggerisce che dovrebbero esserci 10 casi per ogni predittore / variabile indipendente (Agresti, 2007). Sulla base di queste linee guida, ritengo che sia corretto eseguire la regressione logistica.

Ho ragione? In caso contrario, fammi sapere come decidere il numero di variabili indipendenti?


3
Non ho mai veramente capito la regola empirica che dice "10 casi per ogni predittore" (e sfortunatamente non ho accesso al libro scritto da Agresti). Quello che voglio dire è: se ho 100 soggetti di cui 10 sono casi (gli 1) e 90 non casi (gli 0), allora la regola dice "includi solo 1 predittore". Ma cosa succede se modello la 0's invece della 1' e quindi prendo il reciproco dei rapporti di probabilità stimati? Potrei includere 9 predittori? Non ha senso per me.
boscovich,

Caro Andrea, ho detto la stessa cosa che intendi. Su 154 intervistati ci sono 73 casi (1 e 0 di riposo). Potresti far luce sulla mia domanda. Grazie!
Braj-Stat

4
In un commento ho letto che bisogna guardare al minimo del numero di eventi e non eventi. Quindi nell'esempio di 10/100 si finisce con un predittore indipendentemente da come lo si codifica.
psj

@psj sembra ragionevole. Hai qualche referenza?
boscovich,

Risposte:


25

Ci sono diversi problemi qui.

In genere, vogliamo determinare una dimensione minima del campione in modo da raggiungere un livello di potenza statistica minimamente accettabile . La dimensione del campione richiesta è una funzione di diversi fattori, principalmente l'entità dell'effetto che si desidera essere in grado di differenziare da 0 (o qualsiasi valore nullo che si sta utilizzando, ma 0 è il più comune) e la probabilità minima di cogliere quell'effetto voglio avere. Lavorando da questa prospettiva, la dimensione del campione è determinata da un'analisi di potenza.

Un'altra considerazione è la stabilità del tuo modello (come osserva @cbeleites). In sostanza, come rapporto di parametri stimati al numero di dati si avvicina a 1, proprio modello sarà saturo, e sarà necessariamente essere sovradattamento (a meno che non ci sia, infatti, non casualità nel sistema). La regola empirica del rapporto 1 a 10 deriva da questa prospettiva. Nota che avere un potere adeguato coprirà generalmente questa preoccupazione per te, ma non viceversa.

La regola da 1 a 10 proviene tuttavia dal mondo della regressione lineare ed è importante riconoscere che la regressione logistica ha complessità aggiuntive. Un problema è che la regressione logistica funziona meglio quando le percentuali di 1 e 0 sono circa del 50% / 50% (come discusso da @andrea e @psj nei commenti sopra). Un altro problema da considerare è la separazione . Cioè, non vuoi avere tutti i tuoi 1 raccolti su un estremo di una variabile indipendente (o una loro combinazione) e tutti gli 0 sull'altro estremo. Anche se questa sembrerebbe una buona situazione, perché renderebbe facile la previsione perfetta, in realtà fa esplodere il processo di stima dei parametri. (@Scortchi ha un'eccellente discussione su come affrontare la separazione nella regressione logistica qui:Come affrontare la perfetta separazione nella regressione logistica? ) Con più IV, questo diventa più probabile, anche se le vere dimensioni degli effetti sono mantenute costanti, e specialmente se le tue risposte sono sbilanciate. Pertanto, puoi facilmente avere bisogno di più di 10 dati per IV.

Un ultimo problema con quella regola empirica è che presume che i tuoi IV siano ortogonali . Questo è ragionevole per esperimenti progettati, ma con studi osservazionali come i tuoi, i tuoi IV non saranno quasi mai approssimativamente ortogonali. Esistono strategie per affrontare questa situazione (ad es. Combinando o rilasciando IV, conducendo prima un'analisi dei componenti principali, ecc.), Ma se non viene affrontato (cosa comune), avrai bisogno di più dati.

Una domanda ragionevole quindi, quale dovrebbe essere la tua N minima e / o la dimensione del tuo campione è sufficiente? Per risolvere questo problema, ti suggerisco di utilizzare i metodi discussi da @cbeleites; basarsi sulla regola da 1 a 10 sarà insufficiente.


6
Potete fornire un riferimento per l'affermazione "Un problema è che la regressione logistica funziona meglio quando le percentuali di 1 e 0 sono circa del 50% / 50%"? Me lo sono chiesto da solo, dato che ho un set di dati che è molto lontano dal 50/50 e mi chiedo le implicazioni. (mi dispiace per resuscitare il thread)
Trevor

3
Non vedo alcun problema con la resurrezione di un vecchio thread quando è appropriato, @Trevor. Penso che quello che stai cercando sia qualcosa sulla falsariga di questa bella risposta del coniugato precedente: fa-un-squilibrato-campione-materia-quando-facendo-regressione logistica .
gung - Ripristina Monica

2
+1 alla domanda di Trevor. Credo che la regressione logistica continuerà a beneficiare dei nuovi dati, anche se tali dati sono dello stesso caso (nonostante i rendimenti decrescenti). Questo è in realtà qualcosa che mi ha infastidito sulle tecniche di apprendimento automatico come le foreste casuali - che possono peggiorare aggiungendo dati di addestramento più pertinenti. Forse c'è un punto in cui la regressione logistica si spezzerebbe a causa di considerazioni numeriche se lo squilibrio diventasse troppo grave. Sarebbe interessato a saperne di più su questo.
Ben Ogorek,

+1, forse questo è implicito nella tua risposta non sono sicuro, ma mi chiedo come funziona per variabili categoriali con livelli diversi? Si suggerisce di avere 10 osservazioni per livello?
baxx,

1
È una regola empirica, @baxx, ma sì, per fare di più che stimare solo le percentuali, avresti bisogno di almeno 45.
gung - Ripristina Monica

16

In genere utilizzo una regola 15: 1 (rapporto tra min (eventi, non eventi) e numero di parametri candidati nel modello). Un lavoro più recente ha scoperto che per una validazione più rigorosa è necessario 20: 1. Maggiori informazioni possono essere trovate nei volantini del mio corso collegati da http://biostat.mc.vanderbilt.edu/rms , in particolare un argomento per una dimensione minima del campione di 96 solo per stimare l'intercetta. Ma il requisito della dimensione del campione è più sfumato e un documento ancora più recente affronta questo argomento in modo più completo.


14

Di solito, sono stati scritti pochi casi. la complessità del modello (numero di parametri) significa che i modelli sono instabili . Pertanto, se si desidera sapere se la complessità del modello / dimensione del campione è corretta, verificare se si ottiene un modello ragionevolmente stabile.

Esistono (almeno) due diversi tipi di instabilità:

  1. I parametri del modello variano molto con solo lievi modifiche ai dati di allenamento.

  2. Le previsioni (per lo stesso caso) di modelli addestrati con lievi modifiche ai dati di allenamento variano molto.

È possibile misurare 1. osservando quanto variano i coefficienti del modello se i dati di allenamento sono leggermente perturbati. È possibile calcolare un numero adeguato di modelli, ad esempio durante le procedure di bootstrap o (iterate) di convalida incrociata.

Per alcuni tipi di modelli o problemi, la variazione dei parametri non implica variazioni delle previsioni. È possibile verificare direttamente l'instabilità 2. osservando la variazione delle previsioni per lo stesso caso (indipendentemente dal fatto che siano corrette o meno) calcolate durante l'avvio non avviato o la convalida incrociata iterata.


5

Non esistono regole rigide, ma è possibile includere tutte le variabili indipendenti purché le variabili nominali non abbiano troppe categorie. È necessaria una "beta" per tutti tranne uno della classe per ogni variabile nominale. Quindi se una variabile nominale fosse "area di lavoro" e tu avessi 30 aree, avresti bisogno di 29 beta.

Un modo per ovviare a questo problema è di regolarizzare i beta - o penalizzare per grandi coefficienti. Ciò aiuta a garantire che il modello non si adatti eccessivamente ai dati. La regolarizzazione L2 e L1 sono scelte popolari.

Un altro problema da considerare è quanto sia rappresentativo il tuo campione. Di quale popolazione vuoi dedurre? hai tutti i diversi tipi di persone nel campione che c'è nella popolazione? sarà difficile dedurre con precisione se il campione presenta "buchi" (ad es. nessuna femmina di età compresa tra 35 e 50 nel campione o nessun lavoratore ad alto reddito ecc.)


4

Ecco la risposta effettiva dal sito Web MedCalc di cui ha scritto user41466

http://www.medcalc.org/manual/logistic_regression.php

Considerazioni sulla dimensione del campione

Il calcolo della dimensione del campione per la regressione logistica è un problema complesso, ma basato sul lavoro di Peduzzi et al. (1996) possono essere suggerite le seguenti linee guida per un numero minimo di casi da includere nel vostro studio. Sia p la più piccola delle proporzioni di casi negativi o positivi nella popolazione e k il numero di covariate (il numero di variabili indipendenti), quindi il numero minimo di casi da includere è: N = 10 k / p Ad esempio: tu hanno 3 covariate da includere nel modello e la percentuale di casi positivi nella popolazione è 0,20 (20%). Il numero minimo di casi richiesto è N = 10 x 3 / 0,20 = 150 Se il numero risultante è inferiore a 100, è necessario aumentarlo a 100 come suggerito da Long (1997).

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Uno studio di simulazione del numero di eventi per variabile nell'analisi della regressione logistica. Journal of Clinical Epidemiology 49: 1373-1379.


Quindi sono gli stessi 10 casi per variabile indipendente (con piano)
seanv507

1

I risultati di qualsiasi modello logistico con il numero di osservazioni per variabile indipendente che vanno da almeno cinque a nove sono affidabili, soprattutto se i risultati sono statisticamente significativi (Vittinghoff & McCulloch, 2007).

Vittinghoff, E., & McCulloch, CE 2007. Rilassamento della regola di dieci eventi per variabile nella regressione logistica e di Cox. American Journal of Epidemiology, 165 (6): 710–718.


Si noti che non è strettamente il "numero di osservazioni per variabile indipendente" ad essere in questione, è il numero di "eventi". Per una regressione logistica, il numero di "eventi" è il numero di casi nella meno frequente delle due classi di risultati. Questo non sarà maggiore di 1/2 del numero di osservazioni totali, e in alcune applicazioni molto più basso di quello.
EdM,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.