Numero minimo di osservazioni per la regressione lineare multipla


12

Sto facendo una regressione lineare multipla. Ho 21 osservazioni e 5 variabili. Il mio obiettivo è solo trovare la relazione tra le variabili

  1. I miei dati sono impostati abbastanza per fare la regressione multipla?
  2. Il risultato del test t ha rivelato che 3 delle mie variabili non sono significative. Devo ripetere la mia regressione con le variabili significative (o la mia prima regressione è sufficiente per ottenere una conclusione)? La mia matrice di correlazione è la seguente

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 e var 2 sono variabili continue e var 3 a 5 sono variabili categoriali e y è la mia variabile dipendente.

Dovrebbe essere menzionata la variabile importante che è stata considerata in letteratura come il fattore più influente sulla mia variabile dipendente non è anche tra le mie variabili di regressione a causa della mia limitazione dei dati. Ha ancora senso fare la regressione senza questa importante variabile?

ecco il mio intervallo di confidenza

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

Risposte:


17

La regola generale (basata su elementi del libro di Frank Harrell, Regressione Modeling Strategies ) è che se si prevede di essere in grado di rilevare effetti di dimensioni ragionevoli con potenza ragionevole , sono necessarie 10-20 osservazioni per parametro (covariata) stimate. Harrell discute molte opzioni per la "riduzione dimensionale" (portando il numero di covariate a una dimensione più ragionevole), come la PCA, ma la cosa più importante è che per avere fiducia nella riduzione dimensionale dei risultati bisogna fare senza guardare la variabile di risposta . Fare di nuovo la regressione con solo le variabili significative, come suggerisci sopra, è quasi sempre una cattiva idea.

Tuttavia, poiché sei bloccato con un set di dati e un set di covariate che ti interessano, non penso che eseguire la regressione multipla in questo modo sia intrinsecamente sbagliato. Penso che la cosa migliore sarebbe accettare i risultati così come sono, dal modello completo (non dimenticare di guardare le stime puntuali e gli intervalli di confidenza per vedere se gli effetti significativi sono stimati come "grandi" in alcuni casi reali) senso del mondo e se si stima che gli effetti non significativi siano in realtà inferiori agli effetti significativi o meno).

Se ha senso fare un'analisi senza il predittore che il tuo campo considera importante: non lo so. Dipende dal tipo di inferenze che vuoi fare in base al modello. In senso stretto, il modello di regressione è ancora ben definito ("quali sono gli effetti marginali di questi predittori su questa risposta?"), Ma qualcuno nel tuo campo potrebbe giustamente dire che l'analisi non ha senso. Aiuterebbe un po 'se sapessi che i predittori che hai non sono correlati al predittore noto (qualunque esso sia) o che il predittore ben noto sia costante o quasi costante per i tuoi dati: allora almeno potresti dire che qualcosa di diverso dal noto predittore ha un effetto sulla risposta.


Grazie per il commento, ma non capisco quale sia il punto di controllo dell'intervallo di confidenza?
rose

Dato che Ben ha risposto per Frank, risponderò per Ben e può correggermi se avesse in mente qualcos'altro. Ben sta suggerendo jsut usando il modello completo. Quindi almeno sai che non hai lasciato fuori un'importante variabile dall'insieme di 5. Il problema di overfitting potrebbe danneggiare la previsione ma almeno hai intervalli di confidenza per i parametri e puoi ottenere intervalli di confidenza per la previsione. Penso che funzionerà bene se hai un problema di collinearità e gli intervalli di confidenza sui parametri ti consentono di sapere se il valore del parametro potrebbe essere 0.
Michael R. Chernick,

Se nel modello mancano ancora variabili variabili, la previsione potrebbe non essere buona e la valutazione dell'accuratezza della previsione sulla base dei dati forniti potrebbe essere errata. Preoccupati per la mancata specificazione del modello e controlla sempre i residui. Frank Harrell è un membro attivo di questo sito. Quindi spero che questa domanda attiri la sua attenzione e possiamo quindi sentire direttamente da lui.
Michael R. Chernick,

p<0.05

Dalle discussioni che penso a causa della mancanza di sufficiente osservazione e dell'assenza della più importante variabile indipendente nel mio set di dati, devo trarre una conclusione: 1-Le variabili significative non sono la variabile che ha superato il test t. Quello significativo è quello che supera il test t e il suo intervallo di confidenza non include 0. 2-La normalità del residuo deve essere verificata. 3-La matric di correlazione deve essere controllata.
aumentato il

2

La risposta alla domanda generale è che dipende da molti fattori, tra cui i principali sono (1) numero di covariate (2) varianza delle stime e dei residui. Con un piccolo campione non hai molta potenza per rilevare una differenza da 0. Quindi osserverei la varianza stimata dei parametri di regressione. Dalla mia esperienza con la regressione, 21 osservazioni con 5 variabili non sono sufficienti per escludere le variabili. Quindi non sarei così veloce nel buttare via le variabili e non mi innamorerei troppo di quelle che sembrano significative. La risposta migliore è aspettare fino a quando non avrai molti più dati. A volte è facile da dire ma difficile da fare. Vorrei esaminare la regressione graduale, la regressione in avanti e all'indietro solo per vedere quali variabili vengono selezionate. Se le covariate sono altamente correlate, ciò potrebbe mostrare una serie molto diversa di variabili selezionate. Avviare la procedura di selezione del modello poiché ciò rivelerà la sensibilità della selezione delle variabili alle variazioni dei dati. Dovresti calcolare la matrice di correlazione per le covariate. Forse Frank Harrell interverrà su questo. È un vero esperto di selezione variabile. Penso che sarebbe almeno d'accordo con me sul fatto che non dovresti scegliere un modello finale basato esclusivamente su questi 21 punti dati.


Grazie per il tuo suggerimento Ho aggiunto la mia matrice di correlazione. Pensi che con questa matrice di correlazione fare la regressione sia ragionevole? Sottolinea semplicemente che non riesco a raccogliere più dati e che non voglio modellare o prevedere. Voglio solo trovare ogni possibile relazione tra variabili indipendenti e variabili dipendenti.
aumentato il

La matrice di correlazione è lì per darti un'idea della collinearità. Le stime avranno probabilmente una grande varianza e quindi il significato statistico non dovrebbe essere al centro dell'attenzione. Ypu potrebbe esaminare la diagnostica di regressione per la collinearità. Questo potrebbe aiutare. Ma consiglierei di guardare una varietà di modelli di sottoinsieme per vedere come cambia l'adattamento e quali combinazioni di variabili sembrano fare bene e fare male. Penso davvero che il bootstrap dei dati ti mostrerà qualcosa sulla stabilità della scelta dei predittori.
Michael R. Chernick,

1
Ma nulla compenserà la mancanza di dati. Penso che tu voglia solo vedere se ci sono una o due variabili che sembrano stare a braccetto sopra le altre. Ma potresti non trovare nulla.
Michael R. Chernick,

XX2X3X4
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.