Regressione lineare quando Y è limitato e discreto


14

La domanda è semplice: è appropriato usare la regressione lineare quando Y è limitato e discreto (ad es. Il punteggio del test 1 ~ 100, qualche classifica predefinita 1 ~ 17)? In questo caso, "non è buono" usare la regressione lineare o è totalmente sbagliato usarla?

Risposte:


10

Quando una risposta o un risultato Y è limitato, sorgono varie domande nel montaggio di un modello, tra cui:

  1. Qualsiasi modello in grado di prevedere valori per la risposta al di fuori di tali limiti è in linea di principio dubbio. Quindi un modello lineare può essere problematico in quanto non vi sono limiti su Y = X b per predittori X e coefficienti b ogniqualvolta le X sono essi stessi illimitati in una o entrambe le direzioni. Tuttavia, la relazione potrebbe essere abbastanza debole da non mordere e / o le previsioni potrebbero rimanere entro i limiti dell'intervallo osservato o plausibile dei predittori. Ad un estremo, se la risposta è media + rumore, non importa quale modello si adatti.Y^=XbXbX+

  2. Poiché la risposta non può superare i suoi limiti, una relazione non lineare è spesso più plausibile con le risposte previste che si avvicinano in modo asintotico ai limiti di approccio. Le curve o le superfici sigmoide come quelle previste da modelli logit o probit sono interessanti in questo senso e ora non sono difficili da adattare. Una risposta come l'alfabetizzazione (o la frazione che adotta una nuova idea) spesso mostra una tale curva sigmoidea nel tempo e plausibilmente con quasi tutti gli altri predittori.

  3. Una risposta limitata non può avere le proprietà di varianza previste nella regressione normale o vaniglia. Necessariamente quando la risposta media si avvicina ai limiti inferiore e superiore, la varianza si avvicina sempre a zero.

Un modello dovrebbe essere scelto in base a ciò che funziona e alla conoscenza del processo di generazione sottostante. Se il cliente o il pubblico conoscono particolari famiglie di modelli può anche guidare la pratica.

Nota che sto deliberatamente evitando giudizi generali come buoni / non buoni, appropriati / non appropriati, giusti / sbagliati. Tutti i modelli sono nel migliore dei casi approssimazioni e quale approssimazione piace, o è abbastanza buona per un progetto, non è così facile da prevedere. In genere preferisco i modelli logit come prima scelta per le risposte limitate, ma anche quella preferenza si basa in parte sull'abitudine (ad esempio, evitando modelli probit senza una ragione molto valida) e in parte su dove riferirò i risultati, di solito ai lettori che sono, o dovrebbe essere, statisticamente ben informato.

I tuoi esempi di scale discrete sono per i punteggi 1-100 (nelle assegnazioni I mark, 0 è certamente possibile!) O nelle classifiche 1-17. Per scale del genere, di solito penserei di adattare i modelli continui alle risposte ridimensionate su [0, 1]. Vi sono, tuttavia, professionisti di modelli di regressione ordinale che si adatterebbero felicemente a tali modelli su scale con un numero abbastanza elevato di valori discreti. Sono felice se rispondono se sono così interessati.


8

Lavoro nella ricerca sui servizi sanitari. Raccogliamo i risultati riportati dal paziente, ad esempio la funzione fisica o i sintomi depressivi, e vengono spesso assegnati nel formato che hai menzionato: una scala da 0 a N generata sommando tutte le singole domande nella scala.

La stragrande maggioranza della letteratura che ho recensito ha appena usato un modello lineare (o un modello lineare gerarchico se i dati derivano da osservazioni ripetute). Devo ancora vedere qualcuno usare il suggerimento di @ NickCox per un modello logit (frazionario), sebbene sia un modello perfettamente plausibile.

θ

Il grafico seguente deriva dal mio prossimo lavoro di tesi. È qui che inserisco un modello lineare (rosso) in un punteggio di domanda di sintomi depressivi che è stato convertito in punteggi Z e un modello IRT (esplicativo) in blu per le stesse domande. Fondamentalmente, i coefficienti per entrambi i modelli sono sulla stessa scala (cioè in deviazioni standard). In realtà c'è un po 'di accordo sulla dimensione dei coefficienti. Come ha accennato Nick, tutti i modelli sono sbagliati. Ma il modello lineare potrebbe non essere troppo sbagliato da usare.

inserisci qui la descrizione dell'immagine

(Nota: il modello sopra era adatto al pacchetto di Phil Chalmers mirtin R. Graph prodotto usando ggplot2e ggthemes. La combinazione di colori si basa sulla combinazione di colori predefinita di Stata.)


6
Solo perché i modelli lineari sono ampiamente utilizzati, non significa che siano appropriati. Molte persone usano modelli lineari perché è solo ciò che sanno o sono a loro agio.
qwr

1
La letteratura medica è particolarmente diffusa con la cattiva pratica propagata da "questo è ciò che questo campo / diario fa" ideazione di tipo. Come regola generale, non userei o non riuscirei a usare qualcosa solo per il suo aspetto, per quanto comune, nella ricerca medica.
LSC

1

Dai un'occhiata ai valori previsti e controlla se hanno approssimativamente la stessa distribuzione delle Y originali. In questo caso, la regressione lineare probabilmente va bene. e guadagnerai poco migliorando il tuo modello.


1

Una regressione lineare può "adeguatamente" descrivere tali dati, ma è improbabile. Molte ipotesi di regressione lineare tendono a essere violate in questo tipo di dati a tal punto che la regressione lineare diventa sconsiderata. Sceglierò solo alcune ipotesi come esempi,

  1. Normalità - Anche ignorando la discrezione di tali dati, tali dati tendono a mostrare violazioni estreme della normalità perché le distribuzioni sono "tagliate" dai limiti.
  2. Omoscedasticità: questo tipo di dati tende a violare l'omoscedasticità. Le varianze tendono ad essere maggiori quando la media effettiva è verso il centro dell'intervallo, rispetto ai bordi.
  3. Linearità: poiché l'intervallo di Y è limitato, il presupposto viene automaticamente violato.

Le violazioni di questi presupposti vengono mitigate se i dati tendono a cadere attorno al centro dell'intervallo, lontano dai bordi. In realtà, la regressione lineare non è lo strumento ottimale per questo tipo di dati. Alternative molto migliori potrebbero essere la regressione binomiale o la regressione di Poisson.


2
È difficile vedere che la regressione di Poisson è un candidato per risposte doppiamente limitate.
Nick Cox,

0

Se la risposta accetta solo alcune categorie, potresti essere in grado di utilizzare metodi di classificazione o regressione ordinale se la tua variabile di risposta è ordinale.

La regressione lineare semplice non ti darà categorie discrete né variabili di risposta limitate. Quest'ultimo può essere risolto utilizzando un modello logit come nella regressione logistica. Per qualcosa come un punteggio del test con 100 categorie 1-100, potresti anche semplificare la tua previsione e utilizzare una variabile di risposta limitata.


0

usa un cdf (funzione di distribuzione cumulativa dalle statistiche). se il tuo modello è y = xb + e, cambialo in y = cdf (xb + e). Sarà necessario ridimensionare i dati delle variabili dipendenti in modo che rientrino tra 0 e 1. Se si tratta di numeri positivi, dividere per loro il massimo e prendere le previsioni del modello e moltiplicare per lo stesso numero. Quindi vai a controllare l'adattamento e vedi se le previsioni limitate migliorano le cose.

Probabilmente vuoi usare un algoritmo fisso per occuparti delle statistiche per te.


1
Ciò sembra confondere due fatti: (1) le risposte limitate dovrebbero essere ridimensionate tra 0 e 1 per logit, probit e modelli simili da applicare (2) i cdf variano anche tra 0 e 1. Nel trattare una risposta frazionaria in quanto tale, non si è sta modellando il suo cdf.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.