Regole empiriche per la dimensione minima del campione per la regressione multipla


72

Nel contesto di una proposta di ricerca nelle scienze sociali, mi è stata posta la seguente domanda:

Sono sempre andato di 100 + m (dove m è il numero di predittori) nel determinare la dimensione minima del campione per la regressione multipla. È appropriato?

Ricevo molte domande simili, spesso con regole empiriche diverse. Ho anche letto molte regole empiriche in vari libri di testo. A volte mi chiedo se la popolarità di una regola in termini di citazioni sia basata su quanto è basso lo standard. Tuttavia, sono anche consapevole del valore di una buona euristica nel semplificare il processo decisionale.

Domande:

  • Qual è l'utilità di semplici regole empiriche per dimensioni minime del campione nel contesto di ricercatori applicati che progettano studi di ricerca?
  • Consiglieresti una regola empirica alternativa per la dimensione minima del campione per la regressione multipla?
  • In alternativa, quali strategie alternative suggeriresti per determinare la dimensione minima del campione per la regressione multipla? In particolare, sarebbe positivo se il valore fosse assegnato al grado in cui qualsiasi strategia può essere prontamente applicata da un non statistico.

Risposte:


36

Non sono un fan delle formule semplici per generare dimensioni minime del campione. Per lo meno, qualsiasi formula dovrebbe considerare la dimensione dell'effetto e le domande di interesse. E la differenza tra i lati di un taglio è minima.

Dimensione del campione come problema di ottimizzazione

  • I campioni più grandi sono migliori.
  • La dimensione del campione è spesso determinata da considerazioni pragmatiche.
  • La dimensione del campione dovrebbe essere considerata come una considerazione in un problema di ottimizzazione in cui il costo in termini di tempo, denaro, impegno e così via per ottenere partecipanti aggiuntivi viene valutato rispetto ai vantaggi di avere partecipanti aggiuntivi.

Una regola empirica approssimativa

In termini di regole empiriche molto approssimative nel contesto tipico degli studi psicologici osservazionali che coinvolgono cose come test di abilità, scale di atteggiamento, misure della personalità e così via, a volte penso a:

  • n = 100 come adeguato
  • n = 200 buono
  • n = 400 + altrettanto grande

Queste regole empiriche si basano sugli intervalli di confidenza del 95% associati alle correlazioni a questi rispettivi livelli e al grado di precisione che vorrei teoricamente comprendere le relazioni di interesse. Tuttavia, è solo un'euristica.

G Power 3

La regressione multipla verifica più ipotesi

  • Qualsiasi domanda sull'analisi di potenza richiede la considerazione delle dimensioni dell'effetto.
  • L'analisi della potenza per la regressione multipla è resa più complicata dal fatto che ci sono più effetti tra cui il r-quadrato complessivo e uno per ogni singolo coefficiente. Inoltre, la maggior parte degli studi include più di una regressione multipla. Per me, questa è un'ulteriore ragione per fare affidamento maggiormente sull'euristica generale e pensare alla dimensione minima dell'effetto che si desidera rilevare.

  • In relazione alla regressione multipla, spesso penserò di più in termini di grado di precisione nella stima della matrice di correlazione sottostante.

Precisione nella stima dei parametri

Mi piace anche Ken Kelley e la discussione dei colleghi sull'accuratezza nella stima dei parametri.

  • Vedere il sito Web di Ken Kelley per le pubblicazioni
  • Come menzionato da @Dmitrij, Kelley e Maxwell (2003) PDF GRATUITO hanno un utile articolo.
  • Ken Kelley ha sviluppato il MBESSpacchetto in R per eseguire analisi relative alla dimensione del campione e alla precisione nella stima dei parametri.

17

Non preferisco pensare a questo come un problema di potere, ma piuttosto porre la domanda "quanto grande dovrebbe essere in modo che l'apparente possa essere attendibile"? Un modo per avvicinarsi è quello di considerare il rapporto o la differenza tra e , quest'ultimo essendo l' dato da e formando una stima più imparziale di "vero" .nR2R2Radj2R21(1R2)n1np1R2

Alcuni codici R possono essere usati per risolvere il fattore che dovrebbe essere tale che è solo un fattore più piccolo di o è solo più piccolo di . pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

inserisci qui la descrizione dell'immagine Legenda: degrado in che ottiene un calo relativo da a di un fattore relativo indicato (riquadro sinistro, 3 fattori) o differenza assoluta (pannello destro, 6 decrementi).R2R2Radj2

Se qualcuno l'ha già visto in stampa, per favore fatemelo sapere.


1
+1. Sospetto che manchi qualcosa di piuttosto fondamentale e ovvio, ma perché dovremmo usare la capacità di per stimare come criterio? Abbiamo già accesso a , anche se è basso. C'è un modo per spiegare perché questo è il modo giusto di pensare alla minimamente adeguata al di fuori del fatto che rende una migliore stima di ? R^2R2Radj2NNR^2R2
gung - Ripristina Monica

@FrankHarrell: guarda qui l'autore sembra usare le trame 260-263 più o meno allo stesso modo di quelle nel tuo post sopra.
user603

5
Grazie per il riferimento. @gung questa è una buona domanda. Una (debole) risposta è che in alcuni tipi di modelli non abbiamo un e inoltre non abbiamo un indice adeguato se è stata effettuata una selezione di variabili. Ma l'idea principale è che se è imparziale, è probabile che altri indici di discriminazione predittiva come le misure di correlazione dei ranghi siano imparziali anche a causa dell'adeguatezza delle dimensioni del campione e del minimo overfitting. R 2Radj2R2
Frank Harrell,

12

(+1) per una domanda davvero cruciale, secondo me.

Nella macroeconometria di solito si hanno campioni di dimensioni molto più piccole rispetto agli esperimenti micro, finanziari o sociologici. Un ricercatore si sente abbastanza bene quando in grado di fornire stime almeno fattibili. La mia regola personale minima possibile è ( gradi di libertà su un parametro stimato). In altri campi di studio applicati di solito sei più fortunato con i dati (se non è troppo costoso, raccogli solo più punti dati) e potresti chiedere qual è la dimensione ottimale di un campione (non solo il valore minimo per tali). Quest'ultimo problema deriva dal fatto che dati di bassa qualità (rumorosi) non sono migliori di un campione più piccolo di quelli di alta qualità.44m4

La maggior parte delle dimensioni del campione sono legate alla potenza dei test per l'ipotesi che testerete dopo aver adattato il modello di regressione multipla.

C'è una bella calcolatrice che potrebbe essere utile per più modelli di regressione e qualche formula dietro le quinte. Penso che un tale calcolatore prioritario possa essere facilmente applicato dai non statistici.

Probabilmente l' articolo di K. Kelley e SEMaxwell può essere utile per rispondere alle altre domande, ma prima ho bisogno di più tempo per studiare il problema.


11

La tua regola empirica non è particolarmente buona se è molto grande. Prendi : la tua regola dice che va bene per contenere variabili con solo osservazioni. Non la penso quasi!m = 500 500 600mm=500500600

Per la regressione multipla, hai qualche teoria per suggerire una dimensione minima del campione. Se stai per usare i minimi quadrati ordinari, allora uno dei presupposti che richiedi è che i "veri residui" siano indipendenti. Ora quando si adatta un modello dei minimi quadrati alle variabili , si impongono vincoli lineari sui residui empirici (dati dai minimi quadrati o dalle equazioni "normali"). Ciò implica che i residui empirici non sono indipendenti - una volta che ne conosciamo , il rimanente può essere dedotto, dove è la dimensione del campione. Quindi abbiamo una violazione di questo assunto. Ora l'ordine della dipendenza è . Quindi se sceglim + 1 n - m - 1mm+1nm1n O ( m + 1m+1nn=k(m+1)kO(1O(m+1n)n=k(m+1) per un certo numero , quindi l'ordine è dato da . Quindi, scegliendo , stai scegliendo quanta dipendenza sei disposto a tollerare. Scelgo nello stesso modo in cui lo fai per applicare il "teorema del limite centrale" - è buono e abbiamo la regola del "conteggio delle statistiche" (cioè il sistema di conteggio dello statistico è ).kkk10-20301,2,...,26,27,28,29,O(1k)kk1020301,2,,26,27,28,29,


Dici che da 10 a 20 sono buoni, ma ciò dipenderebbe anche dalla dimensione della varianza dell'errore (forse relativa ad altre cose)? Ad esempio, supponiamo che esistesse solo una variabile predittore. Se si sapeva che la varianza dell'errore era davvero minuscola, allora sembra che 3 o 4 punti dati potrebbero essere sufficienti per stimare in modo affidabile la pendenza e l'intercettazione. D'altra parte, se si sapesse che la varianza dell'errore era enorme, anche 50 punti dati potrebbero essere inadeguati. Sto fraintendendo qualcosa?
mark999

Potresti fornire qualche riferimento per l'equazione suggerita n=k(m+1)?
Sosi,

6

In psicologia:

Il verde (1991) indica che (dove m è il numero di variabili indipendenti) è necessario per testare la correlazione multipla e per testare i singoli predittori.N > 104 + mN>50+8mN>104+m

Altre regole che possono essere utilizzate sono ...

Harris (1985) afferma che il numero di partecipanti dovrebbe superare il numero di predittori di almeno .50

Van Voorhis & Morgan (2007) ( pdf ) usando 6 o più predittori il minimo assoluto dei partecipanti dovrebbe essere . Sebbene sia meglio scegliere partecipanti per variabile.301030


1
La tua prima "regola" non contiene m.
Dason,

La sua prima regola empirica è scritta come N = 50 + 8 m, anche se è stato messo in dubbio se il termine 50 sia effettivamente necessario
Sosi,

Ho aggiunto una nuova e più complessa regola empirica che tiene conto della dimensione dell'effetto del campione. Questo è stato anche presentato da Green (1991).
Sosi,

2
Quali sono le citazioni complete per i riferimenti Green (1991) e Harris (1985)?
Hatshepsut,

2

Concordo sul fatto che i calcolatori di potenza siano utili, soprattutto per vedere l'effetto di diversi fattori sulla potenza. In tal senso, i calcolatori che includono più informazioni di input sono molto meglio. Per la regressione lineare, mi piace la calcolatrice regressione qui che include fattori come errore Xs, correlazione tra Xs, e altro ancora.


0

Ho trovato questo documento piuttosto recente (2015) che valuta che sono sufficienti solo 2 osservazioni per variabile, purché il nostro interesse sia sull'accuratezza dei coefficienti di regressione stimati e sugli errori standard (e sulla copertura empirica degli intervalli di confidenza risultanti) e noi usa regolato :R2

( pdf )

Naturalmente, come riconosciuto anche dall'articolo, l'imparzialità (relativa) non implica necessariamente un potere statistico sufficiente. Tuttavia, i calcoli di potenza e dimensione del campione vengono generalmente effettuati specificando gli effetti previsti; nel caso di regressione multipla, ciò implica un'ipotesi sul valore dei coefficienti di regressione o sulla matrice di correlazione tra i regressori e il risultato deve essere fatto. In pratica, dipende dalla forza della correlazione dei regressori con il risultato e tra loro (ovviamente, più è forte, meglio è per la correlazione con il risultato, mentre le cose peggiorano con la multicollinearità). Ad esempio, nel caso estremo di due variabili perfettamente collineari, non è possibile eseguire la regressione indipendentemente dal numero di osservazioni e anche con solo 2 covariate.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.