Come verificare se il mio modello di regressione è buono


10

Un modo per trovare l'accuratezza del modello di regressione logistica usando 'glm' è trovare il diagramma AUC. Come verificare lo stesso per il modello di regressione trovato con la variabile di risposta continua (family = 'gaussian')?

Quali metodi vengono utilizzati per verificare in che misura il mio modello di regressione si adatta ai dati?


Puoi dare un'occhiata al r-squaredtag e al goodness-of-fittag ...
Macro,

2
La famiglia "gaussiana" con un collegamento lineare è solo una regressione dei minimi quadrati ordinari; i metodi per verificare tali accoppiamenti sono probabilmente discussi in mille domande su questo sito (non esagero).
whuber

Questa discussione è rilevante: stats.stackexchange.com/q/414349/121522
mkt -

Risposte:


15

Vorrei suggerire una breve ricerca sulla " diagnostica del modello di regressione lineare " come inizio. Ma eccone alcuni che ti consiglio di controllare:

Assicurarsi che le ipotesi siano soddisfatte in modo soddisfacente

  • Utilizzare il diagramma a dispersione o il componente più il diagramma residuo per esaminare la relazione lineare tra i predittori indipendenti e la variabile dipendente.

  • Componi un diagramma con un valore residuo standardizzato rispetto a un valore previsto e assicurati che non vi sia un punto estremo con un residuo molto elevato e che la diffusione del residuo sia sostanzialmente simile lungo il valore previsto, oltre a diffondersi sostanzialmente allo stesso modo sopra e sotto la media del residuo, zero.

  • È inoltre possibile modificare l'asse y su residuo . Questo diagramma aiuta a identificare la varianza diseguale.2

  • Riesaminare il disegno dello studio per assicurarsi che l'assunzione di indipendenza sia ragionevole.

  • Recupera il fattore di inflazione della varianza (VIF) o le statistiche di tolleranza per esaminare la possibile collinearità.

Esaminare i potenziali punti influenti

  • Controlla statistiche come Cook's D, DFits o DF Beta per scoprire se un determinato punto dati sta cambiando drasticamente i risultati della regressione. Puoi trovare di più qui .

Esaminare la modifica nelle statistiche e rettificataR2R2

  • Essendo il rapporto tra la somma della regressione dei quadrati e la somma totale dei quadrati, può dirti quante% della variabilità nella variabile dipendente sono spiegate dal modello.R2
  • rettificato può essere utilizzato per verificare se la somma aggiuntiva di quadrati causata dal mio predittore aggiuntivo valga davvero i gradi di libertà che prenderanno.R2

Verifica l'interazione necessaria

  • Se esiste un principale predittore indipendente, prima di effettuare qualsiasi interpretazione del suo effetto indipendente, controlla se interagisce con altre variabili indipendenti. L'interazione, se lasciata non corretta, può distorcere la stima.

Applicare il modello a un altro set di dati e verificarne le prestazioni

  • È inoltre possibile applicare la formula di regressione ad altri dati separati e vedere quanto bene prevede. Grafico come grafico a dispersione e statistiche come la differenza% dal valore osservato possono essere un buon inizio.

2
(+1): risposta molto completa! Se stai usando R, plot.lmpuoi darti la maggior parte dei grafici diagnostici menzionati da Penguin_Knight.
Zach,

4

Mi piace convalidare in modo incrociato i miei modelli di regressione per vedere come si generalizzano ai nuovi dati. La mia metrica di scelta è l' errore assoluto medio sui dati validati in modo incrociato, ma l' errore quadratico medio di radice è più comune e ugualmente utile.

Non trovo che R2 sia una buona metrica di come il tuo modello si adatta ai dati di allenamento, poiché quasi tutte le metriche di errore calcolate sui dati di allenamento saranno soggette a un eccesso di adattamento. Se devi calcolare R2 sul set di allenamento, ti suggerisco di utilizzare R2 regolato .


1

È possibile utilizzare per esaminare l'adattamento del modello ai dati di allenamento. Questo ti dirà quale percentuale della varianza nei dati è spiegata dal modello.R2

Suggerisco di utilizzare RMSE (errore quadratico medio radice) delle previsioni sul set di test rispetto al valore effettivo. Questo è un metodo standard per segnalare l'errore di previsione di una variabile continua.


1
@Macro Ma la domanda originariamente chiedeva una metrica delle prestazioni per una regressione OLS con errori gaussiani. Viene dalla regressione logistica.
Erik,

@Erik, grazie, ho letto male. Comunque, per quanto riguarda la prima parte, non credo che , isolatamente, possa essere usato per "verificare se il mio modello di regressione è buono", per usare le parole del PO. Il tuo modello potrebbe fallire miseramente nel prevedere efficacemente la stragrande maggioranza dei dati pur avendo un elevato . Vedi qui per un esempio - nell'esempio (1), non c'è quasi alcun potere predittivo ma è ancora alto. R2R2R2
Macro,

@Macro, sono d'accordo con i tuoi commenti, ma cercavo una semplice spiegazione per indicare l'OP nella giusta direzione
BGreene,

0

Sono abituato a verificare la forma funzionale del mio strumento di stima dei parametri, disegnando una stima non parametrica (ad esempio una regressione del kernel) o semi-parametrica e confrontandola con la curva adattata parametrica. Penso che questo sia nel primo passo spesso più veloce (e forse più approfondito) rispetto all'inclusione di termini di interazione o di ordini superiori.

Il pacchetto R np offre molte funzioni non parametriche e semi-parametriche e la sua vignetta è ben scritta: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.