Ho l'ingenua idea che la regressione lineare sia adatta solo quando si sospetta l'esistenza di relazioni funzionali lineari tra le variabili esplicative e la variabile di risposta. Ma non molte applicazioni del mondo reale sembrano soddisfare questo criterio.
Questa non è una comprensione corretta di ciò che è "lineare" in "regressione lineare".
Non è la relazione tra e le x che si presume sia di forma lineare (anche se è probabile che tutti gli esempi elementari ti inducano in errore).yX
Il termine "lineare" si riferisce al modello lineare nei parametri e le relazioni non lineari tra e alcune x possono certamente essere modellate in questo modo.yX
C'è un esempio con un singolo predittore qui , ma i modelli curvilinei sono più spesso montati come regressione multipla, in cui diverse funzioni di un predittore (variabile x, variabile indipendente) possono verificarsi nella regressione e ciò consente molta flessibilità. Ciò include la regressione polinomiale, ad esempio. Vedi alcune discussioni ed esempi qui .
Tuttavia, se consentiamo il fatto che i predittori possono essere trasformati per adattarsi alle relazioni curve, la linearità nei parametri corrisponde anche alla linearità in quei predittori trasformati.
Inoltre, molti problemi sono vicini al lineare (almeno nell'intervallo di valori considerati) o sono così rumorosi che qualsiasi lieve curvatura non è riconoscibile e potrebbe fare una varietà di modelli semplici per una relazione crescente o decrescente - e in tal caso una scelta lineare può essere sia adeguata che la più semplice da adattare e comprendere.
A quali aspetti di un progetto penserebbe uno statistico esperto se fosse nei miei panni, alla ricerca di una domanda + dati adatti alla regressione lineare.
L'unica volta in cui potrei cercare un problema a cui applicare la regressione sarebbe quando sto cercando di trovare un buon esempio per l'insegnamento. Quando effettivamente sono in grado di svolgere un lavoro statistico (piuttosto che spiegarlo o insegnarlo), scelgo la metodologia per soddisfare la domanda di interesse (e le caratteristiche dei dati), piuttosto che scegliere i dati per adattarli al metodo.
Immagina un falegname, per esempio. Il falegname non raccoglie un raggio e dice "cosa posso usare su questo ?". Piuttosto, il carpentiere ha un problema da risolvere, e nel considerare le caratteristiche del problema ("cosa sto cercando di fare?" E "che tipo di legno sto usando?" E così via ...) strumenti particolari potrebbero essere più pertinente di altri. A volte gli strumenti disponibili possono limitare o guidare le scelte (se non si dispone di un portavoce, potrebbe essere necessario accontentarsi di qualcos'altro ... o potrebbe essere necessario acquistare un portavoce).
Tuttavia, supponiamo che tu abbia uno statistico tascabile che ti aiuta e stai cercando di trovare un problema adatto alla regressione lineare. Quindi potrebbero suggerirti di considerare varie ipotesi di regressione e quando contano. Citerò alcune cose.
E( y| g( x ) )g( x )gX*= xE( y| X*) = a + b x ∗
Se sei in grado di utilizzare la regressione multipla, anche se questo non è particolarmente un grosso problema, dal momento che puoi usare (ad esempio) spline di regressione cubica per adattarsi a relazioni abbastanza generali.
Ti suggerirei di evitare i dati nel tempo a meno che tu non capisca i problemi con una regressione spuria; attenersi a problemi di sezione trasversale.
XX
X
Se sei interessato a test di ipotesi, intervalli di confidenza o intervalli di predizione, potrebbero essere importanti più delle solite ipotesi di regressione (ma ci sono alternative che non fanno tali ipotesi, e in alcuni casi, almeno alcune delle ipotesi potrebbero non essere particolarmente importante comunque).
Quindi una cosa di cui almeno cercare di essere consapevole è quali sono quelle ipotesi che sono fatte nel derivare le procedure inferenziali che stai usando e quanto possano essere importanti nel tuo problema particolare (ad esempio, quando si eseguono i soliti test di ipotesi, la normalità è un'ipotesi, ma in grandi campioni tale ipotesi potrebbe non essere importante; d'altra parte, l'assunzione di una varianza costante può essere più un problema).
Esistono numerosi post che discutono ipotesi di regressione e alcuni post che discutono quando devono essere scritti, quanto possono importare e persino in quale ordine considerarli.