Gradi di libertà residua appropriati dopo aver lasciato cadere i termini da un modello


27

Sto riflettendo sulla discussione intorno a questa domanda e in particolare sul commento di Frank Harrell secondo cui la stima della varianza in un modello ridotto (cioè uno da cui sono state testate e respinte una serie di variabili esplicative) dovrebbe usare i gradi di libertà generalizzati di Ye . Il professor Harrell sottolinea che questo sarà molto più vicino ai gradi residui di libertà del modello "pieno" originale (con tutte le variabili in) rispetto a quello di un modello finale (da cui un certo numero di variabili sono state respinte).

Domanda 1. Se voglio usare un approccio appropriato a tutti i riassunti e le statistiche standard da un modello ridotto (ma a corto di una piena attuazione dei gradi generalizzati di libertà), un approccio ragionevole sarebbe quello di usare solo i gradi residui di libertà da il modello completo nelle mie stime di varianza residua, ecc.?

Domanda 2. Se quanto sopra è vero e voglio farlo R, potrebbe essere semplice come l'impostazione

finalModel$df.residual <- fullModel$df.residual

a un certo punto dell'esercizio di adattamento del modello, in cui finalModel e fullModel sono stati creati con lm () o una funzione simile. Dopo di che funzioni come summary () e confint () sembrano funzionare con il desiderato df.residual, anche se restituendo un messaggio di errore che qualcuno ha chiaramente confuso con l'oggetto finalModel.


8
Buona domanda. Ciò è dovuto al motivo per cui Douglas Bates non include i valori p lmernell'output. Vedi il suo ragionamento qui .

2
Ho visto il modello completo df usato in una situazione del genere più di una volta. (L'approccio di Ye emerge molto in diverse situazioni; è un documento che mi trovo a raccomandare regolarmente alle persone. Sarebbe bello avere una funzione R generica ma efficiente che molte funzioni potrebbero sfruttare.)
Glen_b -Reststate Monica

Risposte:


3

Non sei d'accordo con la risposta di @ FrankHarrel secondo cui la parsimonia comporta qualche brutto compromesso scientifico?

Adoro il link fornito nel commento di @ MikeWiezbicki alla logica di Doug Bates. Se qualcuno non è d'accordo con la tua analisi, può farlo a modo suo, e questo è un modo divertente per iniziare una discussione scientifica sui tuoi presupposti di base. Un valore p non rende la tua conclusione una "verità assoluta".

Se la decisione di includere o meno un parametro nel tuo modello si riduce alla "scelta dei peli" su quali sono, per campioni scientificamente significativi, discrepanze relativamente piccole nel df - e non hai a che fare con problemi che giustificano inferenza più sfumata, comunque - allora hai un parametro così vicino all'incontro con i tuoi cut-off che dovresti essere trasparente e parlarne in entrambi i modi: basta includerlo o analizzare il modello con e senza di esso, ma sicuramente discutere in modo trasparente la tua decisione in l'analisi finale. n<p


2
+1 e sono ora propenso a concordare sul fatto che in realtà la mia domanda iniziale non è così importante date queste altre questioni
Peter Ellis
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.