Qual è la necessità di ipotesi nella regressione lineare?


15

Nella regressione lineare, facciamo le seguenti ipotesi

  • La media della risposta, E(Yi) , in ciascun set di valori dei predittori, (x1i,x2i,) , è una funzione lineare dei predittori.
  • Gli errori,εi , sono indipendenti.
  • Gli errori, , in ciascun set di valori dei predittori, , sono normalmente distribuiti.εi(x1i,x2i,)
  • Gli errori, , in ciascun set di valori dei predittori, (x_ {1i}, x_ {2i}, ...) , hanno varianze uguali (indicato con σ2 ).εi(x1i,x2i,)σ2
  • Uno dei modi in cui possiamo risolvere la regressione lineare è attraverso equazioni normali, che possiamo scrivere come

    θ=(XTX)1XTY

    Da un punto di vista matematico, l'equazione di cui sopra necessita solo di XTX per essere invertibile. Quindi, perché abbiamo bisogno di questi presupposti? Ho chiesto ad alcuni colleghi e hanno detto che è ottenere buoni risultati e le equazioni normali sono un algoritmo per raggiungere questo obiettivo. Ma in tal caso, in che modo aiutano questi presupposti? In che modo difenderli aiuta a ottenere un modello migliore?


    2
    La distribuzione normale è necessaria per calcolare gli intervalli di confidenza dei coefficienti usando le solite formule. Altre formule per il calcolo degli elementi della configurazione (penso che fosse bianco) consentono una distribuzione non normale.
    keiv.fly,

    Non sempre sono necessari quei presupposti per il funzionamento del modello. Nelle reti neurali hai regressioni lineari all'interno e minimizzano rmse proprio come la formula che hai fornito, ma molto probabilmente nessuna delle ipotesi vale. Nessuna distribuzione normale, nessuna varianza uguale, nessuna funzione lineare, anche gli errori possono essere dipendenti.
    keiv.fly,


    1
    @Alexis Le variabili indipendenti che sono iid sicuramente non sono un presupposto (e anche la variabile dipendente essendo iid non è un presupposto - immagina se assumessimo che la risposta fosse iid, sarebbe inutile fare qualsiasi cosa oltre a stimare la media). E le "variabili non omesse" non sono in realtà un presupposto aggiuntivo sebbene sia utile evitare di omettere le variabili: il primo presupposto elencato è proprio quello che se ne occupa.
    Dason,

    1
    @Dason Penso che il mio link fornisca un esempio abbastanza forte di "nessuna variabile omessa" che è necessaria per un'interpretazione valida. Penso anche che iid (subordinato ai predittori, sì) sia necessario, con passeggiate casuali che forniscono un eccellente esempio di dove la stima non iid può fallire (ricorrendo sempre alla stima solo della media).
    Alexis,

    Risposte:


    19

    Hai ragione: non è necessario soddisfare queste ipotesi per adattare una linea dei minimi quadrati ai punti. Sono necessari questi presupposti per interpretare i risultati. Ad esempio, supponendo che non vi fosse alcuna relazione tra un input e Y , qual è la probabilità di ottenere un coefficiente β 1 almeno grande quanto quello che abbiamo visto dalla regressione?X1Yβ1


    17

    Provate l'immagine del quartetto di Anscombe da Wikipedia per avere un'idea di alcuni dei potenziali problemi di interpretazione di regressione lineare, quando alcuni di questi presupposti sono chiaramente falso: la maggior parte delle statistiche descrittive di base sono gli stessi in tutti e quattro (e l'individuo valori sono identici in tutto tranne in basso a destra) xi

    https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png


    Ho fatto un'illustrazione seguendo Anscombe che mostra come può apparire una violazione dell'assunzione di variabili non omesse . Sto ancora lavorando su un'illustrazione simile ad Anscombe di una violazione dell'ipotesi IID .
    Alexis,

    3

    Non sono necessari quei presupposti per adattarsi a un modello lineare. Tuttavia, le stime dei parametri potrebbero essere distorte o non avere la varianza minima. La violazione delle ipotesi renderà più difficile l'interpretazione dei risultati della regressione, ad esempio la costruzione di un intervallo di confidenza.


    1

    Ok, le risposte finora vanno così: Se violiamo i presupposti, possono succedere cose brutte. Credo che la direzione interessante sia: quando vengono soddisfatte tutte le ipotesi di cui abbiamo bisogno (in realtà un po 'diverse da quelle sopra), perché e come possiamo essere sicuri che la regressione lineare sia il modello migliore?

    p(yi|xi)E[Yi|Xi=xi]xi


    0

    Le due ipotesi chiave sono

    1. Indipendenza delle osservazioni
    2. La media non è correlata alla varianza

    Vedi la discussione nel libro di Julian Faraway .

    Se entrambi sono veri, OLS è sorprendentemente resistente alle violazioni delle altre ipotesi che hai elencato.

    Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
    Licensed under cc by-sa 3.0 with attribution required.