Perché l'eliminazione all'indietro è giustificata quando si effettua la regressione multipla?


9

Non si traduce in un eccesso di adattamento? I miei risultati sarebbero più affidabili se aggiungessi una procedura jack-knife o bootstrap come parte dell'analisi?


8
Chi dice che è giustificato? Ovviamente dovrebbe portare a un eccesso di adattamento.
gung - Ripristina Monica

2
In realtà è suggerito in molti libri (ancora?), Ad esempio amazon.com/Statistics-Explained-Introductory-Guide-Scientists/… . Ho pensato io stesso lo stesso problema. Penso di avere almeno 3-4 libri statistici che non discutono affatto del problema del sovralimentazione, quando si introduce la regressione multipla.
mmh,

5
Onestamente, se un libro statistico introduttivo non parla di sovralimentazione e test eccessivi, leggerei un altro libro.
Matthew Drury,

3
L'eliminazione all'indietro (e la selezione in avanti) tende ancora ad adattarsi eccessivamente se la convalida incrociata con esclusione (es. PRESS) viene utilizzata come criterio di selezione delle caratteristiche.
Dikran Marsupial,

5
@mmh non è abbastanza introduttivo, ma consiglio vivamente di leggere il capitolo 4 delle Strategie di modellizzazione della regressione di Frank Harrell (beh, non vale la pena leggere solo il capitolo 4, ma quella parte è particolarmente rilevante per questa discussione).
Glen_b

Risposte:


2

Penso che costruire un modello e testarlo siano cose diverse. L'eliminazione all'indietro fa parte della costruzione del modello. Jack coltello e bootstrap sono più utilizzati per testarlo.

Puoi sicuramente avere stime più affidabili con bootstrap e jack knife rispetto alla semplice eliminazione all'indietro. Ma se vuoi davvero testare un overfitting, il test finale è un campione diviso, allenati su alcuni, test su altri. Leave-one-out è troppo instabile / inaffidabile per questo scopo: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Penso che almeno il 10% dei soggetti debba essere fuori per ottenere stime più stabili della solidità del modello. E se hai 20 soggetti, 2 sono ancora pochissimi. Ma poi la domanda diventa se si dispone di un campione abbastanza grande per costruire un modello che può essere applicato al resto della popolazione.

Spero che abbia risposto alla tua domanda almeno in parte.


K<nK<<n

Un'Introduzione all'apprendimento statistico discute diversi approcci al ricampionamento (set di validazione, validazione incrociata con diversi numeri di gruppi, bootstrap) nel Capitolo 5 e selezione del modello nel Capitolo 6.
EdM
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.