Regressione con dimensioni del campione molto ridotte


9

Voglio eseguire una regressione con 4-5 variabili esplicative, ma ho solo 15 osservazioni. Non potendo assumere che queste variabili siano normalmente distribuite, esiste un metodo di regressione non parametrico o di altro tipo?


5
Non si presume che nessuna delle variabili esplicative sia normale. Non ci sono ipotesi sulla distribuzione marginale della risposta. Se stai eseguendo test di CI o di ipotesi, la solita deduzione assume la normalità condizionale della risposta. Più importanti sono le ipotesi di linearità e varianza costante. In cosa consiste la tua risposta (/ perché non sarà normale)?
Glen_b -Restate Monica

3
No. Non hai abbastanza dati. Questa è analisi esplorativa. Potresti aver visto relazioni suggestive. Ma dovresti evitare valori di p, intervalli di confidenza e test di ipotesi.
charles,

Risposte:


10

@Glen_b ha ragione sulla natura dell'assunzione della normalità nella regressione 1 .

Penso che il tuo problema più grande sarà che non hai abbastanza dati per supportare da 4 a 5 variabili esplicative. La regola empirica standard 2 è che dovresti avere almeno 10 dati per variabile esplicativa, cioè 40 o 50 dati nel tuo caso (e questo è per situazioni ideali in cui non ci sono dubbi sui presupposti). Perché il tuo modello non sarebbe completamente saturo 3(hai più dati che parametri da adattare), puoi ottenere stime di parametri (pendenza, ecc.) e in circostanze ideali le stime sono asintoticamente imparziali. Tuttavia, è molto probabile che le tue stime siano molto lontane dai valori reali e che i tuoi SE / CI saranno molto grandi, quindi non avrai alcun potere statistico. Si noti che l'utilizzo di un'analisi di regressione non parametrica o di altra alternativa non risolverà questo problema.

Quello che dovrai fare qui è scegliere una singola variabile esplicativa (prima di guardare i tuoi dati!) In base a teorie precedenti nel tuo campo o alle tue intuizioni, oppure dovresti combinare le tue variabili esplicative. Una strategia ragionevole per quest'ultima opzione è eseguire un'analisi dei componenti principali (PCA) e utilizzare il primo componente principale come variabile esplicativa.

Riferimenti:
1. Cosa succede se i residui sono normalmente distribuiti ma Y non lo è?
2. Regole empiriche per la dimensione minima del campione per la regressione multipla
3. Numero massimo di variabili indipendenti che possono essere inserite in un'equazione di regressione multipla

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.