So che nella regressione lineare la variabile di risposta deve essere continua, ma perché è così? Non riesco a trovare nulla online che spieghi perché non posso usare dati discreti per la variabile di risposta.
So che nella regressione lineare la variabile di risposta deve essere continua, ma perché è così? Non riesco a trovare nulla online che spieghi perché non posso usare dati discreti per la variabile di risposta.
Risposte:
Non c'è niente che ti fermi usando la regressione lineare su due colonne di numeri che ti piacciono. Ci sono momenti in cui potrebbe persino essere una scelta abbastanza sensata.
Tuttavia, le proprietà di ciò che ottieni non saranno necessariamente utili (ad esempio, non saranno necessariamente tutto ciò che potresti desiderare che fossero).
Generalmente con la regressione stai cercando di adattare una relazione tra la media condizionale di Y e il predittore - ovvero relazioni di adattamento di qualche forma ; probabilmente modellazione del comportamento del valore atteso condizionato è quello che 'regressione' è . [La regressione lineare è quando prendi una forma particolare per g ]
Ad esempio, si consideri un caso estremo di discrezione, una variabile di risposta la cui distribuzione è a 0 o 1 e che assume il valore 1 con probabilità che cambia quando alcuni predittori ( ) cambiano. Questo è E ( Y | x ) = P ( Y = 1 | X = x ) .
Se si adatta quel tipo di relazione con un modello di regressione lineare, a parte un intervallo ristretto, si predicono valori per che sono impossibili - sotto 0 o sopra 1 :
In effetti, è anche possibile vedere che quando l'aspettativa si avvicina ai confini, i valori devono sempre più frequentemente assumere il valore a quel limite, quindi la sua varianza diventa più piccola rispetto a se l'attesa fosse vicina al centro - la varianza deve scendere a 0 Quindi una regressione ordinaria sbaglia i pesi, sottopesando i dati nella regione in cui l'aspettativa condizionale è vicina a 0 o 1. Si verificano effetti simili se si ha una variabile limitata tra aeb, per esempio (come ogni osservazione essendo un conteggio discreto da un conteggio totale totale noto per tale osservazione)
Inoltre, normalmente ci aspettiamo che la media condizionale asintoti verso i limiti superiore e inferiore, il che significa che la relazione sarebbe normalmente curva, non diritta, quindi la nostra regressione lineare probabilmente sbaglia anche nell'intervallo dei dati.
Problemi simili si verificano con dati limitati solo da un lato (ad esempio conteggi che non hanno un limite superiore) quando ci si trova vicino a quel limite.
È possibile (se raro) disporre di dati discreti non limitati alle due estremità; se la variabile assume molti valori diversi, la discrezione può avere conseguenze relativamente ridotte, purché la descrizione della media e la varianza del modello siano ragionevoli.
Ecco un esempio che sarebbe del tutto ragionevole usare la regressione lineare su:
Anche se in qualsiasi sottile striscia di valori x ci sono solo alcuni diversi valori y che è probabile che vengano osservati (forse circa 10 per intervalli di larghezza 1), le aspettative possono essere ben stimate e persino errori standard e p- valori e intervalli di confidenza saranno tutti più o meno ragionevoli in questo caso particolare. Gli intervalli di previsione tenderanno a funzionare un po 'meno bene (perché la non normalità tenderà ad avere un impatto più diretto in quel caso)
-
Se si desidera eseguire test di ipotesi o calcolare intervalli di confidenza o previsione, le normali procedure presuppongono la normalità. In alcune circostanze, ciò può importare. Tuttavia, è possibile dedurre senza assumere quel particolare presupposto.
Non posso commentare, quindi risponderò: nella normale regressione lineare la variabile di risposta non deve essere continua, la tua ipotesi non è:
ma è:
La regressione lineare ordinaria deriva dalla minimizzazione dei residui quadrati, che è un metodo ritenuto appropriato per variabili continue e discrete (vedi teorema di Gauss-Markof). Naturalmente, gli intervalli di confidenza o di previsione generalmente utilizzati e i test di ipotesi si basano sul normale presupposto della distribuzione, come Glen_b ha correttamente sottolineato, ma le stime dei parametri OLS no.
D'altra parte, nel modello lineare generalizzato , la variabile di risposta può essere discreta / categorica (regressione logistica). O conta (regressione di Poisson).
Modifica per indirizzare mark999 e rimodellare i commenti.
La regressione lineare è un termine generale che può essere utilizzato dalle persone in modo diverso. Non c'è nulla che ci impedisca di usarlo su una variabile discreta OPPURE la variabile indipendente e la variabile dipendente non sono lineari.
Se non assumiamo nulla ed eseguiamo una regressione lineare, possiamo ancora ottenere risultati. E se i risultati soddisfano le nostre esigenze, l'intero processo è OK. Tuttavia, come ha detto Glan_b
Se si desidera eseguire test di ipotesi o calcolare intervalli di confidenza o previsione, le normali procedure presuppongono la normalità.
Ho questa risposta perché suppongo che OP stia chiedendo la regressione lineare dal libro statistico classico dove di solito abbiamo questa ipotesi quando insegniamo la regressione lineare.
Da una prospettiva teorica le risposte sopra sono corrette. Tuttavia, in termini pratici, tutto dipende dal dominio dei dati e dalla potenza predittiva del modello.
Un esempio di vita reale è il vecchio modello di fallimento MDS. Questo è stato uno dei primi punteggi di rischio utilizzati dai finanziatori del credito al consumo per prevedere la probabilità che un debitore dichiarasse fallimento. Questo modello utilizzava dati dettagliati del rapporto di credito del debitore e un flag binario 0/1 per indicare il fallimento nel periodo di previsione. Quindi poi hai inserito questi dati in ... sì ... hai indovinato.
Una semplice vecchia regressione lineare
Una volta ho avuto l'opportunità di parlare con una delle persone che hanno costruito questo modello. Gli ho chiesto della violazione delle ipotesi. Spiegò che anche se violava completamente le ipotesi sui residui, ecc. Non gliene importava.
Si scopre ...
Questo modello di regressione lineare 0/1 (quando standardizzato / ridimensionato in base a un punteggio di facile lettura e associato a un valore soglia adeguato) convalidato in modo pulito rispetto a campioni di dati di riserva e eseguito molto bene come discriminatore buono / cattivo per fallimento.
Il modello è stato utilizzato per anni come secondo punteggio di credito per proteggersi dalla bancarotta parallelamente al punteggio di rischio di FICO (progettato per prevedere una delinquenza del credito di oltre 60 giorni).