Differenza tra analisi di regressione e analisi della varianza?


21

In questo momento sto imparando l'analisi della regressione e l'analisi della varianza.

Nell'analisi di regressione hai una variabile fissa e vuoi sapere come va la variabile con l'altra variabile.

Nell'analisi della varianza che vuoi sapere per esempio: se questo specifico cibo per animali influenza il peso degli animali ... COSÌ un var fisso e l'influenza sugli altri ...

È giusto o sbagliato, per favore aiutami ...

Risposte:


25

Supponiamo che il tuo set di dati sia costituito da un set per i = 1 , ... , n e vuoi esaminare la dipendenza di y da x .(Xio,yio)io=1,...,nyX

Supponiamo di trovare i valori α e β di α e β che minimizzare la somma dei quadrati dei residui n Σ i = 1 ( y i - ( α + β x i ) ) 2 . Poi si prende y = α + β x da predetto y -value per qualsiasi (non necessariamente già osservato) x -value. Questa è una regressione lineare.α^β^αβ

Σio=1n(yio-(α+βXio))2.
y^=α^+β^XyX

Ora considera di scomporre la somma totale dei quadrati conn-1gradi di libertà, in parti "inspiegabili" "spiegato" e: n Σ i = 1 ( ( α + β x i ) - ˉ y ) 2 spiegato+ n Σ i = 1 ( y i - ( α + β x i ) ) 2 inspiegabile. con1

Σio=1n(yio-y¯)2dove y¯=y1++ynn
n-1
Σio=1n((α^+β^Xio)-y¯)2ha spiegato + Σio=1n(yio-(α^+β^Xio))2non spiegato.
1e gradi di libertà, rispettivamente. Ecco analisi della varianza, e poi si considera cose come statistiche F F = Σ n i = 1 ( ( α + β x i ) - ˉ y ) 2 / 1n-2Questastatistica F verifica l'ipotesi nullaβ=0.
F=Σio=1n((α^+β^Xio)-y¯)2/1Σio=1n(yio-(α^+β^Xio))2/(n-2).
β=0

y=α+βio
ioKK-1n-K

Un paio di punti aggiuntivi:

  • Per alcuni matematici, l'account di cui sopra potrebbe far sembrare che l'intero campo sia solo ciò che viene visto sopra, quindi può sembrare misterioso che sia la regressione che l'analisi della varianza siano aree di ricerca attive. C'è molto che non si adatta a una risposta appropriata per la pubblicazione qui.
  • y=α+βX

5
@MichaelHardy Mentre la decomposizione della varianza in componenti in regressione viene spesso definita un'analisi della tabella di varianza. Questo non è ciò che gli statistici comunemente intendono per ANOVA. I metodi 1) regressione lineare, 2) analisi della varianza e 3) analisi della covarianza sono categorie sotto l'intestazione generale del modello lineare generale, la regressione lineare coinvolge covariate continue, ANOVA include solo gruppi discreti e ANCOVA è una combinazione di covariate continue e gruppi discreti.
Michael R. Chernick,

1
Informalmente a volte si parla in questo modo, e la mia risposta non l'ha detto, ma si dovrebbe sapere che (1) la stima dei coefficienti dei minimi quadrati viene effettuata in uno dei due problemi (predittori continui o categorici) e una scomposizione della somma dei quadrati con i corrispondenti gradi di libertà --- una tabella di anova --- viene eseguita anche in uno dei due problemi.
Michael Hardy,

5
Con quella concessione allora devi ammettere che non c'è niente di sbagliato nella mia risposta. Anche i termini ANOVA, ANCOVA e regressione non sono termini informali. Sono molto distintamente formali ed è errato dire all'OP che ANOVA è la decomposizione della varianza nella regressione. Il fatto che una procedura statistica che qualcuno di nome anova può fare qualsiasi modello lineare non dimostra nulla. In SAS proc reg si occupa solo della regressione, proc anova si occupa solo dell'analisi della varianza come l'ho definita e proc glm è quello che fa entrambe le cose.
Michael R. Chernick,

1
.... e in R, "lm (....)" fornisce coefficienti di regressione in entrambe le situazioni, e "anova (lm (....))" fornisce la decomposizione della somma del quadrato e dei gradi di libertà, in entrambe le situazioni. Per quanto riguarda "devo ammettere", ho inserito alcuni altri commenti sotto la tua risposta. Certamente se menzionerai la regressione logistica, sarebbe più chiaro se dicessi che non appena parli di regressione lineare, la parola "regressione" è un termine molto ampio che può includere molte cose.
Michael Hardy,

@MichaelHardy Sentiti libero di commentare la mia domanda sollevata sul sito stats.SE. Penso che la tua risposta e la mia risposta a questa domanda siano entrambe corrette in un certo senso. Sicuramente mi oppongo alla mia risposta negativa. Volevo ottenere le opinioni degli altri nella comunità statistica su questo.
Michael R. Chernick,

5

La differenza principale è la variabile di risposta. Mentre la regressione logistica si occupa di una risposta binaria nell'analisi della regressione lineare e anche della regressione non lineare, la variabile di risposta è continua. Hai una variabile (s) (aka covariate (s)) che hanno una relazione funzionale con la variabile di risposta continua. Nell'analisi della varianza la risposta è continua ma appartiene a poche categorie diverse (ad es. Gruppo di trattamento e gruppo di controllo). Nell'analisi della varianza cerchi la differenza nella risposta media tra i gruppi. Nella regressione lineare si osserva come cambia la risposta quando cambiano le covariate. Un altro modo di vedere la differenza è quello di dire che nella regressione le covariate sono continue mentre nell'analisi della varianza sono un insieme discreto di gruppi.


6
Avrei preso la domanda per indicare la differenza tra regressione lineare e analisi della varianza; portando la regressione logistica sembra allontanarsi dall'argomento. Tuttavia, la tua ultima frase è sbagliata. L'analisi della varianza può essere eseguita indipendentemente dal fatto che i predittori siano discreti o continui.
Michael Hardy,

1
Esistono in effetti predittori nell'analisi della varianza. Nel tuo esempio, il predittore è categorico, ma non deve essere così. L'analisi della varianza non considera solo i problemi che coinvolgono "gruppi discreti".
Michael Hardy,

3
@MichaelHardy Sto facendo un passo indietro perché quando controllo le mie enciclopedie statistiche trovo riferimento all'analisi della varianza in termini di decomposizione della varianza nel modello lineare generale. Ma il termine ha due significati e abbastanza spesso ANOVA si distingue da ANCOVA e regressione nel modo in cui ho descritto. Quindi l'OP dovrebbe essere consapevole di entrambi i termini quello che si riferisce all'infernece sui componenti di varianza nel modello lineare generale e quello che si riferisce alla sottoclasse di modelli lineari che coinvolgono solo gruppi discreti.
Michael R. Chernick,

2
Penso che l'utilizzo che stai utilizzando sia informale. Sembra strano menzionare regressione logistica sé è solo uno di una varietà di "regressioni", quando questo termine è usato in senso lato di stimare un valore medio o previsto di una variabile data un'altra, e poi distinguendo che dall'analisi della varianza . Ma la questione della differenza tra i modelli di regressione lineare e l'analisi della varianza sembra una domanda più sensata. Ma ci sono spesso incertezze su ciò che intendeva il poster originale.
Michael Hardy,

7
Qualunque siano le tue intenzioni, trovo inappropriato il commento " Ho un dottorato in statistica, ... ". Prima di tutto, non fa nulla per risolvere il problema in questione. Fare appello all'autorità è un approccio spesso usato, ma molto fuorviato per dimostrare le cose. Fare appello alla propria autorità è ancora più problematico. Può anche essere interpretato nel mostrare (inavvertitamente o in altro modo) una mancanza di rispetto per @MichaelHardy (la persona a cui ti stai rivolgendo), che ha anche un dottorato di ricerca in statistica da un programma di grande reputazione.
cardinale il

2

L'analisi della varianza (ANOVA) è un insieme di metodi statistici per analizzare le osservazioni che si presume siano della struttura

yio=β1Xio1+β2Xio2++βpXiop+eio, io=1(1)n, che sono costituiti da combinazioni lineari di p quantità sconosciute β1,β2,...,βp più errori e1,e2,...,en e il {Xioj} sono noti coefficienti costanti con {eio} non sono correlati e hanno la stessa media 0 e la varianza σ2(sconosciuto).

vale a dire E(yn×1)=Xβ,D(y)=σ2ion Dove D è matrice di dispersione o matrice di varianza-covarianza.

, dove i coefficienti {Xioj} sono i valori delle variabili contatore o variabili indicatore che si riferiscono alla presenza o all'assenza degli effetti {βj} nelle condizioni in cui sono prese le osservazioni: {Xioj} è il numero di volte βjsi verifica nell'i-esima osservazione, e di solito è così0 o 1. In generale, nell'analisi della varianza tutti i fattori sono trattati qualitativamente.

Se la {Xioj} sono valori assunti nelle osservazioni non da contro variabili ma da variabili continue come t= tempo,T= Temperatura,t2,e-T, ecc., abbiamo un caso di * analisi di regressione. In generale, nell'analisi di regressione tutti i fattori sono quantitativi e trattati quantitativamente.

Principalmente, questi due sono due tipi di analisi.


Cosa significa la notazione io=1(1)nsignificare?

1
io=1(1)n si intende io=1,2,...,n
Argha,

-1

Nell'analisi di regressione hai una variabile fissa e vuoi sapere come va la variabile con l'altra variabile.

Nell'analisi della varianza che vuoi sapere per esempio: se questo specifico cibo per animali influenza il peso degli animali ... SO un var fisso e l'influenza sugli altri.


1
Ciao Aiza, benvenuta a SE. È necessario modificarlo per dare più contesto e chiarire quale sia effettivamente la domanda.
Smetti di chiudere le domande velocemente il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.