Quali sono alcune delle idee sbagliate più comuni sulla regressione lineare?


70

Sono curioso, per quelli di voi che hanno una vasta esperienza di collaborazione con altri ricercatori, quali sono alcune delle idee sbagliate più comuni sulla regressione lineare che si incontrano?

Penso che possa essere un esercizio utile per pensare in anticipo a idee sbagliate comuni al fine di

  1. Anticipare gli errori delle persone ed essere in grado di articolare con successo perché alcuni malintesi non sono corretti

  2. Realizza se sto nascondendo alcune idee sbagliate!

Un paio di quelli di base a cui riesco a pensare:

Le variabili indipendenti / dipendenti devono essere normalmente distribuite

Le variabili devono essere standardizzate per un'interpretazione accurata

Chiunque altro?

Tutte le risposte sono benvenute


5
Questo dovrebbe probabilmente essere reso CW, poiché invita un elenco di possibilità e sarà difficile dire che si è oggettivamente la "risposta corretta".
gung - Ripristina Monica

Molte persone che conosco continuano a insistere sull'esecuzione di linearizzazioni sui propri dati e sulla loro rinuncia, anche quando l'ambiente informatico che usano ha un buon supporto per la regressione non lineare. (Le linearizzazioni sono ovviamente utili come punti di partenza per adattamenti non lineari, ma queste persone non se ne rendono nemmeno conto.)
JM non è uno statistico

1
@gung: Community Wiki è ancora una cosa? Per lo più deprecato in tutta la rete , CW non si è mai occupato di fornire domande marginali e generiche su una grande lista per uscire da una carta prigione gratuita, o derubare le persone di reputazione che avrebbero altrimenti guadagnato se la domanda fosse stata in primo luogo sull'argomento. L'unico modo in cui puoi persino porre una domanda è se chiedi a un moderatore di farlo.
Robert Harvey,

1
Se Dio avesse reso il mondo lineare, non ci sarebbe regressione non lineare.
Mark L. Stone,

1
@RobertHarvey: Sì, è ancora una cosa su CrossValidated (secondo me, sfortunatamente). Abbiamo avuto alcune discussioni accese su Meta al riguardo ( ad esempio, questo ), ma lo status quo attuale è che lo stato CW viene applicato su tutte le domande basate sull'opinione o su una grande lista che sono considerate abbastanza sull'argomento da rimanere aperte.
ameba dice Ripristina Monica il

Risposte:


38

Falsa premessa: un significa che non esiste una forte relazione tra DV e IV. β^0
Abbondano le relazioni funzionali non lineari, eppure i dati prodotti da molte di tali relazioni produrrebbero spesso pendenze quasi zero se si presume che la relazione debba essere lineare o addirittura approssimativamente lineare.

Allo stesso modo, in un'altra falsa premessa i ricercatori spesso assumono, forse perché molti libri di testo di regressione introduttiva insegnano, che si "verifica la non linearità" costruendo una serie di regressioni del DV su espansioni polinomiali del IV (ad esempio , seguito da , seguito diYβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε, eccetera.). Proprio come la linea retta non può ben rappresentare una relazione funzionale non lineare tra DV e IV, una parabola non può benissimo rappresentare letteralmente un numero infinito di relazioni non lineari (ad es. Sinusoidi, cicloidi, funzioni graduali, effetti di saturazione, curve a S, ecc. All'infinito ). Si può invece adottare un approccio di regressione che non assume alcuna forma funzionale particolare (ad esempio smoother di linea, GAM, ecc.).

Una terza premessa errata è che l'aumento del numero di parametri stimati comporta necessariamente una perdita di potere statistico. Questo può essere falsa quando la vera relazione non è lineare e richiede più parametri da stimare (ad esempio una funzione "spezzato bastone" richiede non solo le intercetta e pendenza termini di una linea retta, ma richiede punto in cui le variazioni di inclinazione e quante la pendenza cambia di stime anche): i residui di un modello non specificato (ad es. una linea retta) possono aumentare abbastanza (rispetto a una relazione funzionale specificata in modo appropriato) con conseguente probabilità di rifiuto inferiore e intervalli di confidenza e intervalli di previsione più ampi (oltre a stime distorte) .


4
(+1) Quibble: (1) Non penso che nemmeno i testi introduttivi implicino che tutte le curve siano funzioni polinomiali, piuttosto che possano essere approssimate abbastanza bene in un determinato intervallo da funzioni polinomiali. Quindi rientrano nella classe degli "approcci di regressione che non assumono una particolare forma funzionale", governati da un "iperparametro" che specifica la frivolezza: l'intervallo per il loess, il no. nodi per la regressione su base spline, il grado di regressione su base polinomiale. (Non sto sventolando una bandiera per i polinomi - è risaputo che tendono ad agitarsi alle estremità più di quanto vorremmo -, ...
Scortchi - Ripristina Monica

2
... solo dando loro il dovuto.) (2) Una sinusoide potrebbe benissimo adattarsi come tale, all'interno della struttura del modello lineare; un effetto di saturazione usando un modello non lineare (un'iperbole rettangolare, diciamo); & c. Ovviamente non hai detto diversamente, ma forse vale la pena sottolineare che se sai che c'è un ciclo o un asintoto, sarà utile applicare quei vincoli nel tuo modello.
Scortchi - Ripristina Monica

2
@Scortchi Non potrei essere più d'accordo! (In effetti, dato un numero infinito di polinomi, qualsiasi funzione può essere perfettamente rappresentata.) Mirava a conciso. :)
Alexis,

2
@Alexis Prova ad approssimare la funzione base 13 di Conway con i polinomi. :)
Solomonoff's Secret

1
Oppure ...χQ
S. Kolassa - Ripristina Monica il

22

È molto comune presumere che solo dati siano soggetti a errori di misurazione (o almeno, che questo sia l'unico errore che dovremo considerare). Ma questo ignora la possibilità - e le conseguenze - dell'errore nelle misurazioni . Ciò potrebbe essere particolarmente acuto negli studi osservazionali in cui le variabili non sono sotto controllo sperimentale.x xyxx

La diluizione della regressione o l'attenuazione della regressione è il fenomeno riconosciuto da Spearman (1904) per cui la pendenza di regressione stimata nella regressione lineare semplice è distorta verso lo zero dalla presenza di errore di misurazione nella variabile indipendente. Supponiamo che la vera pendenza sia positiva - l'effetto di scuotere lecoordinatedei punti(forse più facilmente visualizzabili come "sfumare" i punti in orizzontale) è di rendere la linea di regressione meno ripida. Intuitivamente, i punti con una grandehanno ora maggiori probabilità di esserlo a causa di un errore di misurazione positivo, mentre ilvaloremaggiori probabilità di riflettere il valore reale (privo di errori) di, e quindi essere inferiore alla linea reale sarebbe per l'osservatox y x xxxyxx .

Nei modelli più complessi, l'errore di misurazione nelle variabili può produrre effetti più complicati sulle stime dei parametri. Vi sono errori nei modelli di variabili che tengono conto di tale errore. Spearman ha suggerito un fattore di correzione per disattenuare i coefficienti di correlazione bivariata e altri fattori di correzione sono stati sviluppati per situazioni più sofisticate. Tuttavia, tali correzioni possono essere difficili - in particolare nel caso multivariato e in presenza di fattori confondenti - e può essere controverso se la correzione sia un vero miglioramento, vedi ad esempio Smith e Phillips (1996).x

Quindi suppongo che si tratti di due equivoci per il prezzo di uno - da un lato è un errore pensare che il modo in cui scriviamo significhi "tutto l'errore è in " e ignori il vero possibilità fisicamente reale di errori di misura nelle variabili indipendenti. D'altra parte, potrebbe non essere consigliabile applicare ciecamente "correzioni" per errori di misurazione in tutte le situazioni come una risposta istintiva (sebbene possa essere una buona idea prendere provvedimenti per ridurre l'errore di misurazione in primo luogo) .yy=Xβ+εy

(Probabilmente dovrei anche collegarmi ad altri modelli comuni di errore nelle variabili, in ordine sempre più generale: regressione ortogonale , regressione di Deming e minimi quadrati totali .)

Riferimenti


A tale proposito: questa è una delle ragioni per l'uso della tecnica che si chiama "total minimi quadrati" o "regressione ortogonale" (a seconda del riferimento che stai leggendo); è significativamente più complicato dei minimi quadrati semplici, ma vale la pena farlo se tutti i punti sono contaminati da errori.
JM non è uno statistico il

@JM Grazie - sì, in effetti inizialmente avevo intenzione di inserire un collegamento a TLS, ma sono stato distratto dall'articolo di Smith e Phillips!
Silverfish

2
+1 Grande aggiunta a questo argomento. Ho spesso considerato i modelli EIV nel mio lavoro. Tuttavia, a parte la loro complessità o affidamento sulla conoscenza dei "rapporti di errore", c'è un problema più concettuale da considerare: molte regressioni, soprattutto in apprendimento supervisionato o previsione, vogliono mettere in relazione osservati predittori a osservati risultati. Modelli EIV, invece, tentano di identificare il rapporto sottostante tra la media predittore e significare risposta ... una domanda leggermente diversa.

2
Quindi, ciò che si potrebbe chiamare "diluizione" della regressione "vera" (in un contesto scientifico) si chiamerebbe "assenza di utilità predittiva" o qualcosa del genere in un contesto di predizione.

21

Ci sono alcuni fraintendimenti standard che si applicano in questo contesto, così come altri contesti statistici: ad esempio, il significato dei valori , la causalità erroneamente dedotta, ecc. p

Un paio di equivoci che ritengo specifici della regressione multipla sono:

  1. Pensare che la variabile con il coefficiente stimato più grande e / o il valore più basso sia "più importante". p
  2. Pensare che l'aggiunta di più variabili al modello ti avvicini alla verità. Ad esempio, la pendenza da una semplice regressione di su potrebbe non essere la vera relazione diretta tra e , ma se aggiungo le variabili , quel coefficiente sarà una migliore rappresentazione della relazione vera e se aggiungo , sarà anche meglio di così. X X Y Z 1 , , Z 5 Z 6 , , Z 20YXXYZ1,,Z5Z6,,Z20

12
Roba buona. Questa risposta potrebbe essere ancora più utile se spiegasse perché i due sono sbagliati e cosa si dovrebbe fare invece?
DW,

14

Direi che il primo che hai elencato è probabilmente il più comune - e forse il più ampiamente insegnato in quel modo - delle cose che sono chiaramente viste come sbagliate, ma qui ci sono alcune altre che sono meno chiare in alcune situazioni ( se si applicano davvero) ma possono avere un impatto ancora maggiore su analisi, e forse più seriamente. Spesso questi non vengono mai menzionati quando viene introdotto il tema della regressione.

  • Trattare come campioni casuali dalla popolazione di gruppi di osservazioni che non possono essere vicini al rappresentante (per non parlare del campionamento casuale). [Alcuni studi potrebbero invece essere visti come qualcosa di più vicino ai campioni di convenienza]

  • Con i dati osservativi, semplicemente ignorando le conseguenze di tralasciare importanti driver del processo che pregiudicherebbero sicuramente le stime dei coefficienti delle variabili incluse (in molti casi, anche a cambiare il loro segno probabilmente), senza tentare di considerare i modi di trattare con loro (sia per ignoranza del problema o semplicemente inconsapevoli che si possa fare qualcosa). [Alcune aree di ricerca hanno questo problema più di altre, sia per il tipo di dati che vengono raccolti sia perché è più probabile che le persone in alcune aree applicative siano state istruite sul problema.]

  • Regressione spuria (principalmente con dati raccolti nel tempo). [Anche quando le persone sono consapevoli che ciò accada, esiste un altro malinteso comune sul fatto che la semplice differenziazione dal presunto fermo è sufficiente per evitare completamente il problema.]

Ce ne sono molti altri che si potrebbero menzionare naturalmente (trattare come dati indipendenti che saranno quasi sicuramente correlati in serie o addirittura integrati potrebbero essere più o meno comuni, per esempio).

Potresti notare che gli studi osservazionali dei dati raccolti nel tempo possono essere colpiti da tutti questi in una volta ... ma quel tipo di studio è molto comune in molte aree di ricerca in cui la regressione è uno strumento standard. Come possano arrivare alla pubblicazione senza che un singolo revisore o editore sia a conoscenza di almeno uno di essi e almeno richiedano un certo livello di esclusione di responsabilità nelle conclusioni continua a preoccuparmi.

Le statistiche sono piene di problemi di risultati improducibili quando si affrontano esperimenti abbastanza attentamente controllati (quando combinati con analisi forse non così attentamente controllate), quindi non appena si esce da questi limiti, quanto peggio deve essere la situazione della riproducibilità?


6
Strettamente correlata ad alcuni dei tuoi punti potrebbe essere l'idea che "solo dati sono soggetti a errori di misurazione" (o almeno, "questo è l'unico errore che dovremo considerare"). Non sono sicuro se ciò meriti di essere messo a scarpa qui, ma è certamente molto comune ignorare la possibilità - e le conseguenze - di un errore casuale nelle variabili . yx
Silverfish,

2
@Silverfish Sono totalmente d'accordo con te.
Mark L. Stone,

@Silverfish è CW, quindi dovresti sentirti extra-libero per modificarlo in un'adeguata aggiunta come quella.
Glen_b,

@Silverfish c'è un motivo per cui non l'ho già aggiunto io stesso quando lo hai menzionato ... Penso che probabilmente valga una nuova risposta
Glen_b

12

Probabilmente non chiamerei queste idee sbagliate, ma forse punti comuni di confusione / riattacchi e, in alcuni casi, problemi di cui i ricercatori potrebbero non essere a conoscenza.

  • Multicollinearità (incluso il caso di più variabili rispetto ai punti dati)
  • eteroschedasticità
  • Se i valori delle variabili indipendenti sono soggetti al rumore
  • In che modo il ridimensionamento (o non ridimensionamento) influisce sull'interpretazione dei coefficienti
  • Come trattare i dati di più soggetti
  • Come gestire le correlazioni seriali (ad es. Serie temporali)

Sul lato malinteso delle cose:

  • Cosa significa linearità (ad es. è non lineare , ma lineare rispetto ai pesi).y=ax2+bx+cx
  • Quella "regressione" significa minimi quadrati ordinari o regressione lineare
  • Che pesi bassi / alti implicano necessariamente relazioni deboli / forti con la variabile dipendente
  • Tale dipendenza tra le variabili dipendenti e indipendenti può necessariamente essere ridotta a dipendenze a coppie.
  • L'elevata bontà di adattamento sul set di allenamento implica un buon modello (ovvero trascurare il sovradimensionamento)

7

Nella mia esperienza, gli studenti spesso adottano l'opinione secondo cui gli errori quadrati (o regressione OLS) sono intrinsecamente appropriati, accurati e nel complesso buoni da usare, o sono anche senza alternativa. Ho spesso visto OLS pubblicizzato insieme a osservazioni che "dà maggior peso a osservazioni più estreme / devianti", e il più delle volte è almeno sottinteso che questa è una proprietà desiderabile. Questa nozione può essere modificata in seguito, quando vengono introdotti il ​​trattamento di valori anomali e approcci solidi, ma a quel punto il danno viene fatto. Probabilmente, l'uso diffuso di errori al quadrato ha storicamente più a che fare con la loro convenienza matematica che con qualche legge naturale dei costi di errore del mondo reale.

Nel complesso, si potrebbe porre maggiormente l'accento sulla comprensione che la scelta della funzione di errore è in qualche modo arbitraria. Idealmente, qualsiasi scelta di penalità all'interno di un algoritmo dovrebbe essere guidata dalla corrispondente funzione di costo del mondo reale associata a un potenziale errore (ovvero, utilizzando un quadro decisionale). Perché non stabilire prima questo principio e poi vedere quanto bene possiamo fare?


2
La scelta dipende anche dall'applicazione. OLS è utile per adattamenti algebrici dell'asse y, ma meno per applicazioni geometriche, dove i minimi quadrati totali (o qualche altra funzione di costo basata sulla distanza ortogonale) hanno più senso.
Willie Wheeler,

4

Un altro malinteso comune è che il termine di errore (o disturbo nel linguaggio econometrico) e i residui sono la stessa cosa.

Il termine di errore è una variabile casuale nel vero modello o processo di generazione dei dati , e si presume spesso che segua una certa distribuzione, mentre i residui sono le deviazioni dei dati osservati dal modello montato. Pertanto, i residui possono essere considerati stime degli errori.


Scommetto che le persone sarebbero interessate a spiegazioni sul perché questo è importante, o in quali tipi di casi.
rolando2,

4

L'idea sbagliata più comune che incontro è che la regressione lineare assume la normalità degli errori. Non La normalità è utile in relazione ad alcuni aspetti della regressione lineare, ad esempio piccole proprietà del campione come i limiti di confidenza dei coefficienti. Anche per queste cose ci sono valori asintotici disponibili per distribuzioni non normali.

Il secondo più comune è un gruppo di confusione per quanto riguarda l'endogeneità, ad esempio non stare attenti ai circuiti di feedback. Se c'è un circuito di feedback da Y a X, è un problema.


4

Un errore che ho commesso è quello di assumere una simmetria di X e Y nell'OLS. Ad esempio, se presumo una relazione lineare con aeb data dal mio software usando OLS, allora credo che supponendo che X in funzione di Y darà ad OLS i coefficienti: che è sbagliato.X = 1

Y=aX+b
X=1aYba

Forse questo è anche correlato alla differenza tra OLS e il totale minimo quadrato o primo componente principale.


3

Quello che ho visto spesso è un malinteso sull'applicabilità della regressione lineare in alcuni casi d'uso, in pratica.

Ad esempio, supponiamo che la variabile a cui siamo interessati sia il conteggio di qualcosa (esempio: visitatori sul sito Web) o il rapporto di qualcosa (esempio: tassi di conversione). In tali casi, la variabile può essere modellata meglio utilizzando funzioni di collegamento come Poisson (conteggi), Beta (rapporti) ecc. Quindi è più adatto l'utilizzo di un modello generalizzato con una funzione di collegamento più appropriata. Ma solo perché la variabile non è categorica, ho visto persone iniziare con una semplice regressione lineare (funzione link = identità). Anche se ignoriamo le implicazioni dell'accuratezza, le ipotesi di modellizzazione sono un problema qui.


2

Eccone uno che penso sia spesso trascurato dai ricercatori:

  • Interazione variabile: i ricercatori guardano spesso a beta isolati di singoli predittori e spesso non specificano nemmeno i termini di interazione. Ma nel mondo reale le cose interagiscono. Senza una specifica adeguata di tutti i possibili termini di interazione, non sai come i tuoi "predittori" si impegnano a formare un risultato. E se vuoi essere diligente e specificare tutte le interazioni, esploderà il numero di predittori. Dai miei calcoli puoi studiare solo 4 variabili e le loro interazioni con 100 soggetti. Se aggiungi un'altra variabile, puoi adattarti molto facilmente.

0

Un altro malinteso comune è che le stime (valori adattati) non sono invarianti rispetto alle trasformazioni, ad es

y i = x T i p

f(y^i)f(yi)^
in generale, dove , basato sul valore di regressione adattato sui tuoi coefficienti di regressione stimati.y^i=xiTβ^

Se questo è quello che vuoi per le funzioni monotoniche non necessariamente lineare, allora quello che vuoi è una regressione quantile.f()

L'uguaglianza di cui sopra vale nella regressione lineare per le funzioni lineari, ma le funzioni non lineari (ad es. ) non saranno valide. Tuttavia, questo vale per qualsiasi funzione monotonica nella regressione quantile.log()

Ciò si presenta continuamente quando si esegue una trasformazione del registro dei dati, si adatta una regressione lineare, quindi si espone il valore adattato e le persone lo leggono come regressione. Questa non è la media, questa è la mediana (se le cose sono veramente distribuite normalmente in modo logaritmico).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.