Numero minimo di punti per una regressione lineare


16

Quale sarebbe un numero minimo "ragionevole" di osservazioni per cercare una tendenza nel tempo con una regressione lineare? che dire di montare un modello quadratico?

Lavoro con indici compositi di disuguaglianza nella salute (SII, RII), e ho solo 4 ondate del sondaggio, quindi 4 punti (1997,2001,2004,2008).

Non sono uno statistico, ma ho l'impressione intuitiva che 4 punti non siano sufficienti. Hai una risposta e / o riferimenti?

Molte grazie,

Françoise


4
La solita regola empirica è di 10 punti per ogni variabile indipendente.
Peter Flom - Ripristina Monica

1
Come vengono misurati i tuoi indici? Se includono stime della variabilità, allora due potrebbero essere sufficienti (usando un t-test o il suo analogo). Il principio statistico di base che si applica qui è che quando la variazione casuale è una spiegazione improbabile di ciò che stai osservando, allora hai il diritto di attribuire qualsiasi tendenza apparente a cause non casuali. Quando la tendenza è forte, potrebbero essere necessari pochissimi valori di dati per giungere a tale conclusione, nonostante tutte le "regole empiriche" generiche.
whuber

Risposte:


12

La regola empirica di Peters di 10 per covariata è una regola ragionevole. Una linea retta può adattarsi perfettamente con due punti qualsiasi indipendentemente dalla quantità di rumore nei valori di risposta e una quadratica può essere adattata perfettamente con solo 3 punti. Così chiaramente in quasi ogni circostanza sarebbe corretto dire che 4 punti sono insufficienti. Tuttavia, come la maggior parte delle regole empiriche, non copre tutte le situazioni. I casi in cui il termine noise nel modello presenta una varianza elevata richiedono più campioni rispetto a un caso simile in cui la varianza dell'errore è ridotta.

Il numero richiesto di punti campione dipende dagli oggetti. Se stai facendo un'analisi esplorativa solo per vedere se un modello (diciamo lineare in una covariata) sembra migliore di un altro (diciamo una funzione quadratica della covariata) potrebbero essere sufficienti meno di 10 punti. Ma se vuoi stime molto accurate dei coefficienti di correlazione e regressione per le covariate, potresti aver bisogno di più di 10 per covariata. Un'accuratezza del criterio di predizione potrebbe richiedere ancora più campioni di stime accurate dei parametri. Si noti che la varianza delle stime e la previsione implicano tutte la varianza del termine di errore dei modelli.


Buoni punti, Michael; Stavo cercando di mantenerlo semplice. :-). Dato l'argomento della domanda originale, sarei molto sorpreso se meno di 10 punti fossero adeguati. Le misure di disuguaglianza nella salute sembrano avere molti errori e è improbabile che le relazioni con il tempo siano altamente lineari. Conosci qualche articolo su questo? È un argomento interessante che emerge molto.
Peter Flom - Ripristina Monica

@PeterFlom Non lo so. Guarderei il libro di Van Belle'a sulle regole empiriche statistiche per vedere se usa una regola come quella che hai menzionato. La cosa bella del suo libro è che spiega la logica alla base di ogni regola. Sono d'accordo con te sul fatto che una regola che dice che prendere almeno il 10 per covariata è piuttosto buona e che l'uso di meno sarebbe raramente sicuro, tranne in alcuni casi esplorativi. Nelle scienze della salute in cui lavoro il termine del rumore sembra essere sempre ampio, ma forse alcuni esperimenti di fisica o ingegneria strettamente controllati potrebbero avere misurazioni molto precise e quindi un piccolo errore casuale.
Michael R. Chernick,

Stavo solo cercando di sottolineare la possibilità di un piccolo rumore che porta a richiedere meno di 10 punti anche se la possibilità potrebbe essere remota.
Michael R. Chernick,

si, sono d'accordo. E potrebbe essere il caso della fisica, diciamo, o di qualsiasi area in cui un livello molto altoR2è previsto e la teoria è forte e l'errore è piccolo.
Peter Flom - Ripristina Monica

+1, buone informazioni, ma vale anche la pena ricordare che se il tuo stimatore è imparziale, puoi avere un modello saturo e avere ancora una stima dei parametri, se è tutto ciò di cui hai bisogno. Non avrai una stima della variabilità o non potrai fare l'inferenza. Tuttavia, in alcuni casi in cui vi sono molti effetti da stimare e i dati sono sufficientemente difficili da ottenere, vengono talvolta utilizzati modelli saturi. Ad esempio, in questo caso, è possibile ottenere una stima della funzione con il quadratico con 3 punti. Non intendo necessariamente che sia una buona cosa, ma questo è il vero limite inferiore e il motivo per cui.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.