Nella regressione lineare perché la variabile di risposta deve essere continua?


13

So che nella regressione lineare la variabile di risposta deve essere continua, ma perché è così? Non riesco a trovare nulla online che spieghi perché non posso usare dati discreti per la variabile di risposta.

Risposte:


25

Non c'è niente che ti fermi usando la regressione lineare su due colonne di numeri che ti piacciono. Ci sono momenti in cui potrebbe persino essere una scelta abbastanza sensata.

Tuttavia, le proprietà di ciò che ottieni non saranno necessariamente utili (ad esempio, non saranno necessariamente tutto ciò che potresti desiderare che fossero).

Generalmente con la regressione stai cercando di adattare una relazione tra la media condizionale di Y e il predittore - ovvero relazioni di adattamento di qualche forma ; probabilmente modellazione del comportamento del valore atteso condizionato è quello che 'regressione' è . [La regressione lineare è quando prendi una forma particolare per g ]E(Y|x)=g(x)g

Ad esempio, si consideri un caso estremo di discrezione, una variabile di risposta la cui distribuzione è a 0 o 1 e che assume il valore 1 con probabilità che cambia quando alcuni predittori ( ) cambiano. Questo è E ( Y | x ) = P ( Y = 1 | X = x ) .xE(Y|x)=P(Y=1|X=x)

Se si adatta quel tipo di relazione con un modello di regressione lineare, a parte un intervallo ristretto, si predicono valori per che sono impossibili - sotto 0 o sopra 1 :E(Y)01

Dati 0-1 e minimi quadrati in forma

In effetti, è anche possibile vedere che quando l'aspettativa si avvicina ai confini, i valori devono sempre più frequentemente assumere il valore a quel limite, quindi la sua varianza diventa più piccola rispetto a se l'attesa fosse vicina al centro - la varianza deve scendere a 0 Quindi una regressione ordinaria sbaglia i pesi, sottopesando i dati nella regione in cui l'aspettativa condizionale è vicina a 0 o 1. Si verificano effetti simili se si ha una variabile limitata tra aeb, per esempio (come ogni osservazione essendo un conteggio discreto da un conteggio totale totale noto per tale osservazione)

Inoltre, normalmente ci aspettiamo che la media condizionale asintoti verso i limiti superiore e inferiore, il che significa che la relazione sarebbe normalmente curva, non diritta, quindi la nostra regressione lineare probabilmente sbaglia anche nell'intervallo dei dati.

Problemi simili si verificano con dati limitati solo da un lato (ad esempio conteggi che non hanno un limite superiore) quando ci si trova vicino a quel limite.

È possibile (se raro) disporre di dati discreti non limitati alle due estremità; se la variabile assume molti valori diversi, la discrezione può avere conseguenze relativamente ridotte, purché la descrizione della media e la varianza del modello siano ragionevoli.

Ecco un esempio che sarebbe del tutto ragionevole usare la regressione lineare su:

grafico che mostra discreto y come funzione di x dove ha senso la regressione lineare

Anche se in qualsiasi sottile striscia di valori x ci sono solo alcuni diversi valori y che è probabile che vengano osservati (forse circa 10 per intervalli di larghezza 1), le aspettative possono essere ben stimate e persino errori standard e p- valori e intervalli di confidenza saranno tutti più o meno ragionevoli in questo caso particolare. Gli intervalli di previsione tenderanno a funzionare un po 'meno bene (perché la non normalità tenderà ad avere un impatto più diretto in quel caso)

-

Se si desidera eseguire test di ipotesi o calcolare intervalli di confidenza o previsione, le normali procedure presuppongono la normalità. In alcune circostanze, ciò può importare. Tuttavia, è possibile dedurre senza assumere quel particolare presupposto.


Grazie, non sono sicuro di aver capito tutto quello che hai detto, ma ci lavorerò.
Ilovestats,

3
Se hai domande specifiche, posso provare a rispondere a queste domande
Glen_b -Reststate Monica

@ilovestats Ho un Master in Econometria e posso assicurarti che vale la pena comprendere ogni risposta. Risposta eccellente, con un facile seguito / buone basi per introdurre la regressione logistica.
d8aninja,

3

Non posso commentare, quindi risponderò: nella normale regressione lineare la variabile di risposta non deve essere continua, la tua ipotesi non è:

y=β0+β1X

ma è:

E[y]=β0+β1X.

La regressione lineare ordinaria deriva dalla minimizzazione dei residui quadrati, che è un metodo ritenuto appropriato per variabili continue e discrete (vedi teorema di Gauss-Markof). Naturalmente, gli intervalli di confidenza o di previsione generalmente utilizzati e i test di ipotesi si basano sul normale presupposto della distribuzione, come Glen_b ha correttamente sottolineato, ma le stime dei parametri OLS no.


2

XXy

y=β0+β1X+ε

εy

D'altra parte, nel modello lineare generalizzato , la variabile di risposta può essere discreta / categorica (regressione logistica). O conta (regressione di Poisson).


Modifica per indirizzare mark999 e rimodellare i commenti.

La regressione lineare è un termine generale che può essere utilizzato dalle persone in modo diverso. Non c'è nulla che ci impedisca di usarlo su una variabile discreta OPPURE la variabile indipendente e la variabile dipendente non sono lineari.

Se non assumiamo nulla ed eseguiamo una regressione lineare, possiamo ancora ottenere risultati. E se i risultati soddisfano le nostre esigenze, l'intero processo è OK. Tuttavia, come ha detto Glan_b

Se si desidera eseguire test di ipotesi o calcolare intervalli di confidenza o previsione, le normali procedure presuppongono la normalità.

Ho questa risposta perché suppongo che OP stia chiedendo la regressione lineare dal libro statistico classico dove di solito abbiamo questa ipotesi quando insegniamo la regressione lineare.


Grazie, ho capito la tua spiegazione. Più apprezzato
Ilovestats,

1
Puoi anche spiegare perché la variabile esplicativa può essere continua o discreta (come dicono molte pubblicazioni)? Nella tua spiegazione dici (ed ha senso) che la variabile indipendente x è continua.
Ilovestats,

2
Non penso che questa risposta sia corretta. Non si presume che la variabile di risposta sia una funzione deterministica delle variabili esplicative e non è necessario presumere che le variabili esplicative siano continue.
mark999,

2
Il risultato può essere discreto o condizionato, questa risposta è chiaramente sbagliata
Repmat

@Repmat grazie per il tuo commento, controlla la mia modifica.
Haitao Du

0

Non Se il modello funziona, a chi importa?

Da una prospettiva teorica le risposte sopra sono corrette. Tuttavia, in termini pratici, tutto dipende dal dominio dei dati e dalla potenza predittiva del modello.

Un esempio di vita reale è il vecchio modello di fallimento MDS. Questo è stato uno dei primi punteggi di rischio utilizzati dai finanziatori del credito al consumo per prevedere la probabilità che un debitore dichiarasse fallimento. Questo modello utilizzava dati dettagliati del rapporto di credito del debitore e un flag binario 0/1 per indicare il fallimento nel periodo di previsione. Quindi poi hai inserito questi dati in ... sì ... hai indovinato.

Una semplice vecchia regressione lineare

Una volta ho avuto l'opportunità di parlare con una delle persone che hanno costruito questo modello. Gli ho chiesto della violazione delle ipotesi. Spiegò che anche se violava completamente le ipotesi sui residui, ecc. Non gliene importava.

Si scopre ...

Questo modello di regressione lineare 0/1 (quando standardizzato / ridimensionato in base a un punteggio di facile lettura e associato a un valore soglia adeguato) convalidato in modo pulito rispetto a campioni di dati di riserva e eseguito molto bene come discriminatore buono / cattivo per fallimento.

Il modello è stato utilizzato per anni come secondo punteggio di credito per proteggersi dalla bancarotta parallelamente al punteggio di rischio di FICO (progettato per prevedere una delinquenza del credito di oltre 60 giorni).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.