Indica che un problema è adatto alla regressione lineare


12

Sto imparando la regressione lineare usando Introduzione all'analisi della regressione lineare di Montgomery, Peck e Vining . Vorrei scegliere un progetto di analisi dei dati.

Ho l'ingenua idea che la regressione lineare sia adatta solo quando si sospetta l'esistenza di relazioni funzionali lineari tra le variabili esplicative e la variabile di risposta. Ma non molte applicazioni del mondo reale sembrano soddisfare questo criterio. Tuttavia la regressione lineare è così diffusa.

A quali aspetti di un progetto penserebbe uno statistico esperto se fosse nei miei panni, alla ricerca di una domanda + dati adatti alla regressione lineare.


3
Apprezzo che tu stia imparando una tecnica e desideri sapere dove funzionerà. Ma per gli statistici esperti (e per gli scienziati statisticamente esperti) la situazione è completamente inversa: c'è un problema e dati e quindi la domanda è: che tipo di modelli e metodi sono la scelta migliore. Vedrai che la regressione lineare al primo incontro è solo un sapore; con l'esperienza le persone sono felici di saltare alla regressione di Poisson, alla regressione del logit, ecc. e persino la linearità dei parametri può essere facilmente combinata con strutture più generali.
Nick Cox,

e naturalmente serie temporali mdels quando le osservazioni sono potenzialmente autocorrelate
IrishStat

3
In realtà i modelli lineari sono usati a destra e sinistra anche quando sappiamo che la relazione non è lineare. Pensa a un modello lineare come un'approssimazione del primo ordine, una sorta di espansione multivariata di Taylor.
Aksakal,

Risposte:


12

Ho l'ingenua idea che la regressione lineare sia adatta solo quando si sospetta l'esistenza di relazioni funzionali lineari tra le variabili esplicative e la variabile di risposta. Ma non molte applicazioni del mondo reale sembrano soddisfare questo criterio.

Questa non è una comprensione corretta di ciò che è "lineare" in "regressione lineare".

Non è la relazione tra e le x che si presume sia di forma lineare (anche se è probabile che tutti gli esempi elementari ti inducano in errore).yx

Il termine "lineare" si riferisce al modello lineare nei parametri e le relazioni non lineari tra e alcune x possono certamente essere modellate in questo modo.yx

C'è un esempio con un singolo predittore qui , ma i modelli curvilinei sono più spesso montati come regressione multipla, in cui diverse funzioni di un predittore (variabile x, variabile indipendente) possono verificarsi nella regressione e ciò consente molta flessibilità. Ciò include la regressione polinomiale, ad esempio. Vedi alcune discussioni ed esempi qui .

Tuttavia, se consentiamo il fatto che i predittori possono essere trasformati per adattarsi alle relazioni curve, la linearità nei parametri corrisponde anche alla linearità in quei predittori trasformati.

Inoltre, molti problemi sono vicini al lineare (almeno nell'intervallo di valori considerati) o sono così rumorosi che qualsiasi lieve curvatura non è riconoscibile e potrebbe fare una varietà di modelli semplici per una relazione crescente o decrescente - e in tal caso una scelta lineare può essere sia adeguata che la più semplice da adattare e comprendere.

A quali aspetti di un progetto penserebbe uno statistico esperto se fosse nei miei panni, alla ricerca di una domanda + dati adatti alla regressione lineare.

L'unica volta in cui potrei cercare un problema a cui applicare la regressione sarebbe quando sto cercando di trovare un buon esempio per l'insegnamento. Quando effettivamente sono in grado di svolgere un lavoro statistico (piuttosto che spiegarlo o insegnarlo), scelgo la metodologia per soddisfare la domanda di interesse (e le caratteristiche dei dati), piuttosto che scegliere i dati per adattarli al metodo.

Immagina un falegname, per esempio. Il falegname non raccoglie un raggio e dice "cosa posso usare su questo ?". Piuttosto, il carpentiere ha un problema da risolvere, e nel considerare le caratteristiche del problema ("cosa sto cercando di fare?" E "che tipo di legno sto usando?" E così via ...) strumenti particolari potrebbero essere più pertinente di altri. A volte gli strumenti disponibili possono limitare o guidare le scelte (se non si dispone di un portavoce, potrebbe essere necessario accontentarsi di qualcos'altro ... o potrebbe essere necessario acquistare un portavoce).

Tuttavia, supponiamo che tu abbia uno statistico tascabile che ti aiuta e stai cercando di trovare un problema adatto alla regressione lineare. Quindi potrebbero suggerirti di considerare varie ipotesi di regressione e quando contano. Citerò alcune cose.

E(y|g(x))g(x)gx=xE(y|x)=a+bx

Se sei in grado di utilizzare la regressione multipla, anche se questo non è particolarmente un grosso problema, dal momento che puoi usare (ad esempio) spline di regressione cubica per adattarsi a relazioni abbastanza generali.

Ti suggerirei di evitare i dati nel tempo a meno che tu non capisca i problemi con una regressione spuria; attenersi a problemi di sezione trasversale.

xx

x

Se sei interessato a test di ipotesi, intervalli di confidenza o intervalli di predizione, potrebbero essere importanti più delle solite ipotesi di regressione (ma ci sono alternative che non fanno tali ipotesi, e in alcuni casi, almeno alcune delle ipotesi potrebbero non essere particolarmente importante comunque).

Quindi una cosa di cui almeno cercare di essere consapevole è quali sono quelle ipotesi che sono fatte nel derivare le procedure inferenziali che stai usando e quanto possano essere importanti nel tuo problema particolare (ad esempio, quando si eseguono i soliti test di ipotesi, la normalità è un'ipotesi, ma in grandi campioni tale ipotesi potrebbe non essere importante; d'altra parte, l'assunzione di una varianza costante può essere più un problema).

Esistono numerosi post che discutono ipotesi di regressione e alcuni post che discutono quando devono essere scritti, quanto possono importare e persino in quale ordine considerarli.


Bella risposta, ma penso che non risponda completamente alla domanda. A quali aspetti di un progetto penserebbe uno statistico esperto se fosse nei miei panni, alla ricerca di una domanda + dati adatti alla regressione lineare. rimane senza risposta.
Dawny33,

@ Dawny33 Ho sicuramente intenzione di aggiungere altro a questo in seguito - alcune cose sono emerse mentre scrivevo ciò che mi ha impedito di scrivere la risposta completa che inizialmente intendevo; Ho avuto solo il tempo di finire la frase in cui mi trovavo, e ora potrei non tornarci per un giorno o due. In effetti non ho nemmeno avuto il tempo di correggere tutti gli errori di battitura in esso. (Nel frattempo non dovresti esitare a pubblicare una risposta.) D'altro canto, sottolineare che la premessa della domanda è imperfetta può portare l'OP a voler chiedere cose diverse da quelle originariamente previste (è spesso il caso in cui il premessa centrale fallisce)
Glen_b -Restate Monica

Ad esempio, prevedo che una nuova domanda che potrebbe sorgere sarebbe "hai un esempio?".
Glen_b -Restate Monica

@Glen_b grazie. Il termine "lineare" si riferisce al modello lineare nei parametri . Scusate se ho scritto male, non intendevo implicare diversamente. La parola chiave era funzionale .
Cwacker

@Glen_b potrebbero suggerirti di prendere in considerazione varie ipotesi di regressione . Di nuovo d'accordo. Non ero esplicito su questo, ma la mia Q riguarda più la conoscenza del dominio. Mi chiedo cosa uno statistico esperto cercherebbe nel sistema in esame per l'analisi LR, quindi la mia ingenua proposta di essere regressori che sono linearmente e funzionalmente correlati alla risposta e la cui relazione simultanea con la risposta è additiva.
Cwacker

4

YYYYYX) bene. Nel corso di molti anni di esperienza, vedrai che alcune variabili come la pressione sanguigna tendono a comportarsi bene in un modello lineare e altre (ad es. Misurazioni della chimica del sangue) no.

YY


Grazie per aver sottolineato l'aspetto dell'essere ben educati. Ho pensato alle trasformazioni dei regressori, ma non alla variabile di risposta. Tuttavia, vedo ora come il futuro potrebbe essere usato per rimodellare la distribuzione dei residui. Grazie per aver compilato alcune delle foto. Un post molto utile.
Cwacker

3

@Glen_b ha dato un'ottima risposta ma, come notato, non è riuscito a finire.

Quindi, per quanto riguarda la tua ultima domanda:

Un esperto di statistica, penso, non farebbe questa domanda. Come osserva Glen, il problema impone gli strumenti da utilizzare, non viceversa.

Se stessi cercando di apprendere una tecnica come la regressione lineare, utilizzerei esempi già funzionanti, ma quelli che avevano dati reali, non costituivano dati progettati per semplificare le cose. Un libro come Regressione Modeling by Example può fornire una guida.

Tuttavia, uno dei primi passi per esaminare un problema di regressione è decidere se la regressione lineare sia effettivamente adatta.


Un esperto di statistica, penso, non farebbe questa domanda. sì, questo è il motivo per cui ho qualificato la mia Q con "nelle mie scarpe". Grazie mille per la raccomandazione sul libro. Ne rintraccio una copia. Una miriade di esempi aiuterebbe almeno la metà della storia, con contro esempi che sono l'altra metà.
Cwacker

Ahhh, una citazione! da pagina 2 della 4a edizione: invitiamo i lettori a pensare a domande (nelle loro aree di lavoro, ricerca o interesse) che possono essere affrontate utilizzando l'analisi di regressione.
Cwacker

0

Molte risposte hanno toccato le ipotesi che devono essere soddisfatte: linearità nei residui, omogeneità della varianza nell'intervallo del predittore, nessun valore estremo che potrebbe influenzare la linea di regressione e osservazioni indipendenti. I grafici residui sono abbastanza facili da produrre con la maggior parte dei programmi di regressione e alcuni pacchetti forniscono automaticamente alcuni (SAS).

Una persona ha parlato di trasformare y. Questa è una pratica comune in alcune aree, ma è una pratica che porta a risultati distorti e forse non interpretabili. La distorsione viene visualizzata quando si tenta di trasformare i risultati nella metrica originale. Meglio passare a un altro tipo di regressione che ha uno schema residuo che corrisponde alle ipotesi distributive del residuo. Vedi il capitolo 3 dell'Introduzione all'analisi dei dati categoriali di Agresti, dove introduce il concetto di link. Numerosi libri di regressione introducono anche il modello lineare generalizzato.


Non condivido il pessimismo sulla trasformazione. Dopo tutto la trasformazione originale è abbastanza arbitraria. Se si trasformano e si ottengono residui con una distribuzione simmetrica, la trasformata posteriore dei valori previsti è la mediana prevista sulla scala originale. Le mediane previste sono abbastanza utili. Se si desidera ottenere i mezzi previsti sulla scala originale, è possibile utilizzare lo stimatore della sbavatura.
Frank Harrell,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.