Howlers causati dall'uso della regressione graduale


20

Sono ben consapevole dei problemi della selezione graduale / avanti / indietro nei modelli di regressione. Esistono numerosi casi di ricercatori che denunciano i metodi e indicano alternative migliori. Ero curioso di sapere se esistono delle storie in cui un'analisi statistica:

  • ha usato la regressione graduale;
  • fatto alcune conclusioni importanti basate sul modello finale
  • la conclusione era errata, con conseguenze negative per l'individuo, la sua ricerca o la sua organizzazione

Il mio pensiero su questo se i metodi graduali sono cattivi, allora ci dovrebbero essere conseguenze nel "mondo reale" per usarli.


2
Se non trovi nessuna di queste storie, potrebbe essere perché la regressione graduale è principalmente usata nella ricerca di base (o almeno così io percepisco). I ricercatori di base di solito non si mettono nei guai per aver sbagliato, purché non abbiano falsificato i dati o qualcosa del genere.
Kodiologo,

3
È molto usato nell'industria e nella classe. Nella ricerca gli autori probabilmente non avrebbero rivelato di averlo usato. Nel settore i due motivi principali sono che a) coloro che lo stanno facendo non sono stati formati nella ricerca, ad esempio hanno conseguito la laurea o b) si sono laureati decenni fa.
Aksakal,

@Aksakal Non imparare a cominciare, ma ottenere comunque una pelle di pecora è il problema, non il tempo trascorso. Esemplare gratis , io. Ho preso uno statistiche corso intorno al 1971, e il primo statistiche usate in una pubblicazione circa 2006.
Carl

Risposte:


1

È stata posta più di una domanda. Il più stretto sta chiedendo un esempio di quando la regressione graduale ha causato danni perché è stata eseguita gradatamente. Questo è ovviamente vero, ma può essere stabilito in modo inequivocabile solo quando vengono pubblicati anche i dati utilizzati per la regressione graduale e qualcuno li rianalizza e pubblica una correzione peer-review con una retrazione di autori primari pubblicata. Fare accuse in qualsiasi altro contesto rischia un'azione legale e, se utilizziamo un set di dati diverso, potremmo sospettare che sia stato commesso un errore, ma "le statistiche non provano mai nulla" e non saremmo in grado di stabilire che un errore fosse fatto; "oltre un ragionevole dubbio".

È un dato di fatto, spesso si ottengono risultati diversi a seconda che si proceda all'eliminazione graduale o all'accumulo graduale di un'equazione di regressione, il che ci suggerisce che nessuno dei due approcci è sufficientemente corretto per raccomandarne l'uso. Chiaramente, sta succedendo qualcos'altro e questo ci porta a una domanda più ampia, posta anche sopra, ma in forma di proiettile, pari a "Quali sono i problemi con la regressione graduale, comunque? Questa è la domanda più utile a cui rispondere e ha il aggiunto vantaggio che non avrò una causa intentata contro di me per aver risposto.

Farlo bene per MLR graduale, significa usare 1) unità fisicamente corrette (vedi sotto) e 2) trasformazione variabile appropriata per le migliori correlazioni e tipo di distribuzione dell'errore (per omoscedasticità e fisicità), e 3) usando tutte le permutazioni di combinazioni variabili, non graduale, tutti loro , e 4) se uno diagnostica i problemi di regressione esaustivi quindi si evita mancanti alta VIF (collinearita) combinazione di variabili che altrimenti sarebbero fuorvianti, quindi il premio è meglio regressione.

Come promesso per il n. 1 sopra, esploreremo successivamente le unità corrette per un sistema fisico. Poiché i buoni risultati della regressione dipendono dal corretto trattamento delle variabili, dobbiamo essere consapevoli delle solite dimensioni delle unità fisiche ed equilibrare le nostre equazioni in modo appropriato. Inoltre, per le applicazioni biologiche, è necessaria una consapevolezza e una spiegazione della dimensionalità del ridimensionamento allometrico .

Per favore leggi questo GFR=kW1/4V2/3GFRW1=1443+23GFR


2
Questo sembra descrivere un problema con la regressione in generale, piuttosto che la regressione graduale in particolare.
Statistico accidentale

2
Sì, questi sono aspetti della regressione da considerare in generale. Se capisco correttamente da dove viene la domanda, tuttavia, è motivato dalla regressione graduale che viene spesso denunciata a favore dell'uso di artisti del calibro di LASSO, che non affronterebbe le preoccupazioni che ci poni.
Statistico accidentale

4
Apprezzo la tua franchezza e la tua buona volontà in questa faccenda, Carl. Non nego che il voto abbia i suoi problemi. L'unico modo efficace che conosco per modificare il voto su un post è quello di cambiare la risposta - o per migliorarla tecnicamente, espanderla o per comunicare le idee in modo diverso - e anche in questo caso non c'è garanzia che otterrà la risposta desiderata (o anche qualsiasi risposta!). A volte, gli sforzi rispettosi fatti per capire i downvoter susciteranno informazioni che aiutano tutti ad apprezzare (e migliorare) tali sforzi nel migliorare un posto.
whuber

3
@Carl Penso che se si ottengono downvotes regolari la prima cosa da fare è considerare come migliorare i propri post (e spesso ci sono commenti al di sotto che suggeriscono miglioramenti). Parlando da solo, anche quando non sono d'accordo con un commentatore, si scopre che spesso sollevano problemi che portano comunque a una risposta migliore. Dirò che noto regolarmente problemi con le tue risposte che mi spingerebbero quasi a votarlo da solo. Dove ho tempo per farlo, provo a lasciare un commento.
Glen_b

3
Si noti che molti dei problemi di regressione graduale - come problemi con stime distorte da 0, errori standard distorti verso 0, tassi di errore nominali di tipo I molto più bassi di quelli attuali e una varietà di altri problemi sono ancora presenti con tutti i sottoinsiemi - - in effetti, è un problema con quasi ogni forma di ottimizzazione (il capitolo 4 delle strategie di modellazione della regressione di Frank Harrell è un riferimento utile). Il restringimento / regolarizzazione può mitigare alcuni di questi problemi (in particolare la tendenza della selezione a distorcere le stime verso l'esterno) e la valutazione fuori campione è uno strumento importante per molti di essi.
Glen_b -Restate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.