Quali sono i problemi con l'utilizzo dell'esito percentuale nella regressione lineare?


11

Ho uno studio in cui molti risultati sono rappresentati come percentuali e sto usando regressioni lineari multiple per valutare l'effetto di alcune variabili categoriche su questi risultati.

Mi chiedevo, dato che una regressione lineare presuppone che il risultato sia una distribuzione continua, ci sono problemi metodologici nell'applicare tale modello alle percentuali, che sono limitate tra 0 e 100?


1
Queste percentuali sono continue (come la percentuale di crema nel latte, per esempio) o discrete (come le proporzioni binomiali, un conteggio in una categoria su un conteggio totale)?
Glen_b

1
Uhm ... non capisco la differenza. Non sono entrambi continui? Comunque penso che il secondo descriva meglio i miei dati, dal momento che stiamo parlando di persone in totale.
Bakaburg,

La distribuzione dei conteggi divisa per conteggi è decisamente discreta. In effetti, il numeratore è di solito modellato come un binomio, il denominatore è condizionato (trattato come costante), quindi il rapporto è di solito trattato come un binomio ridimensionato. Tuttavia, anche se il denominatore fosse anche una variabile casuale, il rapporto sarebbe comunque discreto poiché il suo spazio di campionamento è numerabile
Glen_b -Reinstate Monica

Risposte:


17

Affronterò le questioni relative a possibilità discrete o continue:

  1. Un problema con la descrizione della media

    Hai una risposta limitata. Ma il modello che stai adattando non è limitato e quindi può esplodere fino al limite; alcuni dei tuoi valori adattati potrebbero essere impossibili e alla fine devono essere i valori previsti.

    La vera relazione alla fine deve diventare più piatta di quanto non sia nel mezzo mentre si avvicina ai limiti, quindi ci si aspetta che si pieghi in qualche modo.

  2. Un problema con la descrizione della varianza

    Man mano che la media si avvicina al limite, anche la varianza tenderà a diminuire, a parità di altre cose. C'è meno spazio tra la media e il limite, quindi la variabilità generale tende a ridursi (altrimenti la media tende ad essere allontanata dal limite da punti che si trovano in media più lontano sul lato non vicino al limite.

(In effetti, se tutti i valori della popolazione in alcuni quartieri fossero esattamente al limite, la varianza sarebbe zero.)

Un modello che si occupa di tale limite dovrebbe prendere in considerazione tali effetti.

Se la proporzione è per una variabile di conteggio, un modello comune per la distribuzione della proporzione è un GLM binomiale. Esistono diverse opzioni per la forma della relazione tra la proporzione media e i predittori, ma la più comune sarebbe una GLM logistica (molte altre scelte sono di uso comune).

Se la proporzione è continua (come la percentuale di crema nel latte), ci sono diverse opzioni. La regressione beta sembra essere una scelta abbastanza comune. Ancora una volta, potrebbe utilizzare una relazione logistica tra la media e i predittori o potrebbe utilizzare un'altra forma funzionale.

Vedi anche Regressione per un risultato (rapporto o frazione) tra 0 e 1 .


1
+1 e mi sono preso la libertà di aggiungere un collegamento a quello che potrebbe forse essere visto come il nostro thread "master" su questo argomento (la risposta di Gung copre anche le opzioni beta e logistiche).
ameba dice di reintegrare Monica il

2
Un semplice argomento generale è se la media è 0, ciò è possibile solo se tutti i valori sono 0, e allo stesso modo con 1 = 100% e tutti i valori sono 1. Quindi la varianza deve essere 0 agli estremi indipendentemente dal fatto che le proporzioni siano basate su contare o misurare. Sebbene sia possibile che tutti gli altri valori siano costanti, in pratica è molto raro. Quindi la varianza sarà più alta per un valore compreso tra 0 e 1.
Nick Cox,

saresti in grado di fornire alcuni riferimenti per i 2 problemi descritti?
user1607

3

Questo è esattamente lo stesso del caso in cui il risultato è compreso tra 0 e 1 e quel caso viene in genere gestito con un modello lineare generalizzato (GLM) come la regressione logistica. Ci sono molti eccellenti primer per la regressione logistica (e altri GLM) su Internet, e c'è anche un noto libro di Agresti sull'argomento.

La regressione beta è un'alternativa praticabile ma più complicata. È probabile che la regressione logistica funzioni bene per la tua applicazione e in genere sarebbe più facile da implementare con la maggior parte dei software statistici.

Perché non usare la regressione dei minimi quadrati ordinaria? In realtà lo fanno le persone, a volte sotto il nome di "modello di probabilità lineare" (LPM). Il motivo più ovvio per cui gli LPM sono "cattivi" è che non esiste un modo semplice per limitare il risultato all'interno di un certo intervallo e è possibile ottenere previsioni superiori a 1 (o 100% o qualsiasi altro limite superiore finito) e inferiori a 0 (o qualche altro limite inferiore). Per lo stesso motivo, le previsioni vicino al limite superiore tendono ad essere sistematicamente troppo alte e le previsioni vicino al limite inferiore tendono ad essere troppo basse. La matematica alla base della regressione lineare presuppone esplicitamente che tendenze del genere non esistano. In genere non esiste un motivo valido per adattare un LPM alla regressione logistica.

A parte questo, risulta che tutti i modelli di regressione OLS, inclusi gli LPM, possono essere definiti come un tipo speciale di GLM, e in questo contesto gli LPM sono correlati alla regressione logistica.


4
Sebbene nel complesso gran parte di questa risposta appaia utile, contiene alcune informazioni errate che potrebbero confondere i lettori. Il resoconto della regressione logistica nel primo paragrafo suona come una descrizione di una trasformazione logaritmica della variabile dipendente seguita da regressione lineare: non è regressione logistica. Neanche l'interpretazione dei coefficienti è corretta. Un problema più importante con gli "LPM" è che quando i dati sono vicini agli estremi, probabilmente presentano distribuzioni asimmetriche dei residui, che è una violazione importante dell'ipotesi di regressione.
whuber

Non pensavo che valesse la pena entrare in odds ratio e simili. Sposterò semplicemente quella roba e lascerò che l'OP lo rilevi. Anche un buon punto sui residui.
Shadowtalker,

(+1) Grazie per le tue risposte costruttive!
whuber

2

Potrebbe valere la pena indagare sulla regressione beta (per la quale ho capito che esiste un pacchetto R), che sembra ben adattato a tali problemi.

http://www.jstatsoft.org/v34/i02/paper


7
La tua risposta sarebbe ancora migliore se colpissi alcuni dei principali motivi per cui la regressione lineare soffre quando il risultato è una percentuale.
Alexis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.