Ho visto molti posti in cui hanno set di dati di input / output in cui prima creano una linea di regressione lineare, correggono il bias e quindi usano solo quei dati per il loro modello. Non ho capito cos'è questa correzione del bias?
Ho visto molti posti in cui hanno set di dati di input / output in cui prima creano una linea di regressione lineare, correggono il bias e quindi usano solo quei dati per il loro modello. Non ho capito cos'è questa correzione del bias?
Risposte:
Sebbene l'affermazione del problema non sia abbastanza precisa per sapere esattamente a quale tipo di correzione del bias ti riferisci, penso di poterne parlare in termini generali. A volte uno stimatore può essere distorto. Ciò significa semplicemente che sebbene possa essere un buon stimatore, il suo valore atteso o medio non è esattamente uguale al parametro. La differenza tra la media dello stimatore e il valore del parametro vero è chiamata distorsione. Quando è noto che uno stimatore è distorto, a volte è possibile, con altri mezzi, stimare la distorsione e quindi modificare lo stimatore sottraendo la distorsione stimata dalla stima originale. Questa procedura è chiamata correzione del bias. Viene fatto con l'intento di migliorare la stima. Mentre ridurrà la distorsione, aumenterà anche la varianza.
Un buon esempio di corretta correzione della distorsione è la stima della correzione della distorsione da bootstrap del tasso di errore di classificazione. La stima di reintegrazione del tasso di errore ha un grande pregiudizio ottimistico quando la dimensione del campione è piccola. Il bootstrap viene utilizzato per stimare il bias della stima di resubstitution e poiché la stima di resubstitution sottostima il tasso di errore, la stima di bias viene aggiunta alla stima di resubstitution per ottenere la stima del bias bootstrap corretta del tasso di errore. Quando la dimensione del campione è piccola 30 o meno, combinando entrambe le classi in un problema a due classi alcune forme della stima bootstrap (in particolare la stima 632) forniscono stime più accurate dei tassi di errore rispetto alla validazione incrociata one-out (che è molto stima quasi imparziale del tasso di errore).