Una regressione lineare può essere significativa se i dati non sono lineari?


11

Ho eseguito una regressione lineare che ha prodotto un risultato significativo, tuttavia quando ho verificato la linearità del diagramma a dispersione non ero sicuro che i dati fossero lineari.

Esistono altri modi per verificare la linearità senza ispezionare il diagramma a dispersione?

La regressione lineare potrebbe essere significativa se non fosse lineare?

[Modificato per includere grafici a dispersione]

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine


3
Possono esserci più interpretazioni delle domande e più risposte (ma fondamentalmente la risposta è sì in tutti i casi, e come prova del risultato è certamente possibile nel tuo caso). Puoi mostrare il grafico a dispersione? Quindi altri possono capire cosa intendi con dati non lineari e in che senso il risultato significativo si è rivelato comunque presente.
Sesto Empirico

5
Vedi stats.stackexchange.com/search?q=anscombe+quartet per una serie classica di semplici esempi. A stats.stackexchange.com/a/152034/919 ho pubblicato un algoritmo in grado di costruire esempi adatti a quasi tutte le circostanze che ti vengono in mente.
whuber

YXYXYXX
Alexis,

H0:β0=cH0:βx=cH0:F=cH0:R2=c

Grazie per le risposte e le scuse per la risposta lenta - Sono stato lontano dalla tecnologia! Ho modificato il post per includere scattergraph per quelle regressioni che erano significative. Qualsiasi consiglio su come procedere sarebbe molto apprezzato.
IntoTheBlue,

Risposte:


18

Le relazioni monotone non lineari appariranno quasi sempre significative quando si modella come modelli lineari. Se la relazione non è lineare e non monotonica, dipende dal campione.

y=lnxy=x3y=x2y=sinx

x[1,1]y=sinxyx

inserisci qui la descrizione dell'immagine

x[0,π]inserisci qui la descrizione dell'immagine


13
+1. Ma tieni presente che il termine corretto è "monotonico". "Monotono" significa noioso e noioso attraverso la ripetizione.
whuber

22
lnxsinx

+1 Suggerirei anche di definire cosa significhi monotonico.
Mark White,

Grazie, ho aggiornato il post per includere grafici a dispersione. Qualsiasi consiglio su come procedere sarebbe molto apprezzato.
IntoTheBlue,

(xx¯)2

3

Sì, Aksakal ha ragione e una regressione lineare può essere significativa se la vera relazione non è lineare. Una regressione lineare trova una linea che si adatta meglio ai tuoi dati e verifica semplicemente se la pendenza è significativamente diversa da 0.

Prima di provare a trovare un test statistico per la non linearità, suggerirei di riflettere su ciò che vuoi prima modellare. Ti aspetti una relazione lineare (non lineare) tra le tue due variabili? Cosa stai cercando di scoprire esattamente? Se ha senso presumere che esista una relazione non lineare come ad esempio tra velocità della vettura e distanza di frenata, è possibile aggiungere termini al quadrato (o altre trasformazioni) della variabile indipendente.

Inoltre, un'ispezione visiva dei dati (grafico a dispersione) è un metodo molto potente e un primo passo essenziale nell'analisi.


YX

Inoltre: Benvenuti in CV, Pawel!
Alexis,

2
@Alexis Hai ragione. Ma l'aggiunta di un termine quadratico è ancora una raccomandazione comunemente vista in alcuni testi come un modo rapido e sporco per verificare la non linearità (capire che nessuno sta suggerendo che sia l'unico o addirittura il primo modo per modellare le non linearità), quindi sono non abbastanza preoccupato per quel passaggio.
whuber

+1 @whuber Purtroppo, ho incontrato molti ricercatori, studenti e docenti che praticano l'aggiunta di un termine quadratico come primo controllo al di là del bulbo oculare di un diagramma a dispersione come "come testare la non linearità", con un risultato negativo interpretato come "lineare è sufficiente ". (I termini quadratici possono davvero essere utili e li ho usati nella mia stessa ricerca. :) Immagino che la mia prospettiva su "veloce e sporco" sia che le cose che vengono insegnate con facilità diventano de rigore per la stragrande maggioranza dei ricercatori. .. Penso che le regressioni non parametriche siano "facili" quanto lineari e uno strumento migliore per esplorare.
Alexis,

@Alexis Grazie. Penso che tu mi abbia frainteso. Non stavo raccomandando di aggiungere termini al quadrato per verificare la non linearità, ma sicuramente si possono creare casi per termini al quadrato (o altre trasformazioni. I dati economici sono spesso trasformati in tronchi). Penso che ci debba essere una distinzione tra analisi esplorativa ed esplicativa. Se ci sono motivi fondati per assumere una relazione quadrata, questo deve essere testato. Quello che stai proponendo è un approccio più esplorativo.
Pawel,

-2

Sono d'accordo con tutto ciò che dice Aksakal. Ma per quanto riguarda la prima domanda, penso che la risposta sia correlazione. La correlazione misura la misura in cui esiste una relazione lineare tra i set di dati xey.


2
y=lnx

@gung Sì. Quale delle sue affermazioni ritieni errata? Consentitemi di suggerire di capire cosa significano le parole lineare e non lineare e che, come nella risposta di Aksakal, è davvero facile trovare esempi di variabili con una relazione esatta e non lineare. Tuttavia, la correlazione è una misura della relazione lineare e una correlazione di +/- 1 significa che la relazione è effettivamente lineare. Qualsiasi correlazione inferiore a quella significa che la relazione è (non esattamente) lineare ma può essere abbastanza stretta.
Meh

1
L'OP "ha eseguito una regressione lineare che è emersa con un risultato significativo", ma il diagramma a dispersione implicava che la relazione non era lineare. Una correlazione sarebbe probabilmente stata significativa, infatti, se la regressione avesse solo 1 variabile X, i valori p della regressione e la correlazione sarebbero identici. Ma se la relazione non fosse lineare nonostante la regressione significativa, non sarebbe comunque lineare nonostante la correlazione significativa. Pertanto, una correlazione significativa non è la prova che la relazione sia lineare.
gung - Ripristina Monica

1
r=1r=1r1

1
Questo può sembrare eccessivamente sottile o addirittura pignolo, ma (a) sono d'accordo che la correlazione è un modo per misurare la linearità di una relazione bivariata - questo è un teorema matematico, dopotutto - ma (b) come proposizione generale, dubito che potrebbe essere interpretato come nient'altro che un modo estremamente grezzo per valutare la non linearità. La prova della non linearità può essere sorprendente in un set di dati con un'elevata correlazione assoluta del campione ed essere completamente assente in un set di dati con una piccola correlazione assoluta. (cc @gung)
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.