Ci sono diversi problemi qui.
In genere, vogliamo determinare una dimensione minima del campione in modo da raggiungere un livello di potenza statistica minimamente accettabile . La dimensione del campione richiesta è una funzione di diversi fattori, principalmente l'entità dell'effetto che si desidera essere in grado di differenziare da 0 (o qualsiasi valore nullo che si sta utilizzando, ma 0 è il più comune) e la probabilità minima di cogliere quell'effetto voglio avere. Lavorando da questa prospettiva, la dimensione del campione è determinata da un'analisi di potenza.
Un'altra considerazione è la stabilità del tuo modello (come osserva @cbeleites). In sostanza, come rapporto di parametri stimati al numero di dati si avvicina a 1, proprio modello sarà saturo, e sarà necessariamente essere sovradattamento (a meno che non ci sia, infatti, non casualità nel sistema). La regola empirica del rapporto 1 a 10 deriva da questa prospettiva. Nota che avere un potere adeguato coprirà generalmente questa preoccupazione per te, ma non viceversa.
La regola da 1 a 10 proviene tuttavia dal mondo della regressione lineare ed è importante riconoscere che la regressione logistica ha complessità aggiuntive. Un problema è che la regressione logistica funziona meglio quando le percentuali di 1 e 0 sono circa del 50% / 50% (come discusso da @andrea e @psj nei commenti sopra). Un altro problema da considerare è la separazione . Cioè, non vuoi avere tutti i tuoi 1 raccolti su un estremo di una variabile indipendente (o una loro combinazione) e tutti gli 0 sull'altro estremo. Anche se questa sembrerebbe una buona situazione, perché renderebbe facile la previsione perfetta, in realtà fa esplodere il processo di stima dei parametri. (@Scortchi ha un'eccellente discussione su come affrontare la separazione nella regressione logistica qui:Come affrontare la perfetta separazione nella regressione logistica? ) Con più IV, questo diventa più probabile, anche se le vere dimensioni degli effetti sono mantenute costanti, e specialmente se le tue risposte sono sbilanciate. Pertanto, puoi facilmente avere bisogno di più di 10 dati per IV.
Un ultimo problema con quella regola empirica è che presume che i tuoi IV siano ortogonali . Questo è ragionevole per esperimenti progettati, ma con studi osservazionali come i tuoi, i tuoi IV non saranno quasi mai approssimativamente ortogonali. Esistono strategie per affrontare questa situazione (ad es. Combinando o rilasciando IV, conducendo prima un'analisi dei componenti principali, ecc.), Ma se non viene affrontato (cosa comune), avrai bisogno di più dati.
Una domanda ragionevole quindi, quale dovrebbe essere la tua N minima e / o la dimensione del tuo campione è sufficiente? Per risolvere questo problema, ti suggerisco di utilizzare i metodi discussi da @cbeleites; basarsi sulla regola da 1 a 10 sarà insufficiente.
1
) e 90 non casi (gli0
), allora la regola dice "includi solo 1 predittore". Ma cosa succede se modello la0
's invece della1
' e quindi prendo il reciproco dei rapporti di probabilità stimati? Potrei includere 9 predittori? Non ha senso per me.