Regressione per un risultato (rapporto o frazione) tra 0 e 1


43

Sto pensando di costruire un modello che preveda un rapporto , dove e e . Quindi, il rapporto sarebbe tra e .a b a > 0 b > 0 0 1a/baba>0b>001

Potrei usare la regressione lineare, sebbene non si limiti naturalmente a 0..1. Non ho motivo di credere che la relazione sia lineare, ma ovviamente viene spesso utilizzata come semplice primo modello.

Potrei usare una regressione logistica, sebbene sia normalmente usata per prevedere la probabilità di un risultato a due stati, non per predire un valore continuo nell'intervallo 0..1.

Non sapendo più nulla, useresti la regressione lineare, la regressione logistica o l'opzione nascosta c ?


4
Hai considerato la regressione beta?
Peter Flom - Ripristina Monica

Mille grazie a tutti coloro che hanno risposto. Dovrò studiare e scegliere. Sembra che una beta sia un buon punto di partenza, soprattutto se riesco a osservare una buona misura (forse a occhio).
dfrankow,

Ho visto questo fatto usando GLM (funzione di collegamento di Poisson). Il numeratore a sarebbe i dati di conteggio (il risultato) e il denominatore b sarebbe la variabile di offset. Si sarebbe quindi bisogno di separare una e B i valori per ogni soggetto / osservazione. Non sono sicuro che questa sia l'opzione più valida. Trovo la distribuzione Beta un'opzione interessante, di cui non avevo sentito parlare. Tuttavia, trovo difficile da capire, essendo un non statistico.
MegPophealth

Grazie a tutti per la vostra analisi profonda e utile, attualmente sto affrontando quasi la stessa sfida, ma invece di prevedere un intervallo di rapporto continuo tra 0-1, voglio piuttosto costruire un modello di regressione per prevedere un intervallo di utilità dei pazienti tra -1 e 1. Questo è abbastanza complicato, non sono riuscito a trovare alcuna funzione di collegamento appropriata per costruire un modello di regressione con un intervallo dipendente continuo compreso tra -1 e 1. Quindi i ragazzi vogliono solo avere un'idea di cosa si potrebbe fare. Grazie,

1
Per il momento, esiste una risposta banale: riscalare la risposta con ( y + 1 ) / 2 porta qualsiasi link per [ 0 , 1 ] nel range, dopodiché è possibile ridimensionare per riportare le previsioni se lo si desidera. y(y+1)/2[0,1]
Nick Cox,

Risposte:


34

Dovresti scegliere "opzione nascosta c", dove c è la regressione beta. Questo è un tipo di modello di regressione che è appropriato quando la variabile di risposta è distribuita come Beta . Puoi considerarlo analogo a un modello lineare generalizzato . È esattamente quello che stai cercando. C'è un pacchetto Rchiamato betareg che si occupa di questo. Non so se usi R, ma anche se non puoi leggere comunque le "vignette", ti forniranno informazioni generali sull'argomento oltre a come implementarlo R(di cui non avresti bisogno questo caso).


Modifica (molto più tardi): lasciami fare un rapido chiarimento. Interpreto la domanda in merito al rapporto tra due valori positivi, reali. In tal caso, (e sono distribuiti come Gammas), questa è una distribuzione Beta. Tuttavia, se è un conteggio di "successi" su un totale noto, b , di "prove", allora si tratterebbe di una percentuale di conteggio a / b , non di una proporzione continua, e si dovrebbe usare GLM binomiale (ad es. Logistica regressione). Per come farlo in R, vedi ad es. Come fare la regressione logistica in R quando il risultato è frazionario (un rapporto di due conteggi)?aba/b

Un'altra possibilità è quella di utilizzare la regressione lineare se i rapporti possono essere trasformati in modo da soddisfare le ipotesi di un modello lineare standard, anche se non sarei ottimista sul fatto che funzioni effettivamente.


1
Ti dispiacerebbe approfondire il motivo per cui in questo caso sarebbe preferibile la regressione beta? Questa è una raccomandazione che vedo abbastanza spesso qui, ma in realtà non vedo nessuno che elabori la logica - sarebbe bello avere!
Matt Parker,

4
@MattParker, Beta è la distribuzione di proporzioni continue - se questo è ciò che hai come variabile di risposta, allora Beta è la distribuzione appropriata da usare. È davvero così semplice. Il valore adattato da una regressione logistica è una probabilità (che è ovviamente continua), ma la distribuzione è binomiale (un certo numero di prove di Bernoulli con probabilità di successo ) se la variabile di risposta non è un insieme di prove di Bernoulli, quindi LR non lo è adeguata. p
gung - Ripristina Monica

3
Starei attento nel dire che una beta è "la" distribuzione appropriata da usare. È abbastanza flessibile e potrebbe essere appropriato ma non copre tutti i casi. Quindi mentre è un buon suggerimento e potrebbe benissimo essere quello che vogliono - non puoi davvero dire che è la distribuzione appropriata solo sul fatto che è una risposta continua tra 0 e 1.
Dason

1
Una distribuzione triangolare su [0,1] rappresenta una distribuzione continua su proporzioni che non è una beta. Potrebbero essercene molti altri. La beta è una famiglia flessibile ma non c'è nulla di magico. Fai una buona osservazione sulla regressione logistica perché viene normalmente applicata ai dati binari.
Michael R. Chernick,

2
Forse dovrei provare a sembrare meno dogmatico. Quello che volevo dire è che tu esamini il tuo DV e usi la distribuzione che segue. È vero, ci sono altre distribuzioni di proporzioni continue. Tecnicamente, Beta è il rapporto tra un Gamma e la sua somma + un altro Gamma. In una data situazione, una diversa distribuzione potrebbe essere superiore; es. Beta non può assumere solo i valori 0 o 1 (0, 1). Tuttavia, Beta è ben compreso e molto flessibile con solo 2 parametri per adattarsi. Sostengo che quando si tratta di un DV che è una proporzione continua, in genere è il punto di partenza migliore.
gung - Ripristina Monica

2

Questi campioni sono accoppiati o due popolazioni indipendenti?

XiXiMiXiMi è un valore di B.

L'intercettazione di questa regressione sarà log (B) e la pendenza sarà log (rapporto).

Vedi di più qui:

Oltre a J, Moineddin R. Metodi per la stima dell'intervallo di confidenza di un parametro di rapporto con l'applicazione ai quozienti di posizione. Metodologia di ricerca medica BMC. 2005; 5 (1): 32.

EDIT: ho scritto un addon SPSS per fare proprio questo. Posso condividerlo se sei interessato.


1
Per curiosità quale metodo hai usato (delta, Fieller o GLM)? Mi fa un po 'paura che l'articolo di BMC non abbia fatto alcune simulazioni della copertura dei diversi stimatori (anche se inventare una simulazione realistica sarebbe fastidioso). Mi è stato ricordato perché di recente mi sono imbattuto in un documento che fa il metodo delta (senza una vera giustificazione), sebbene citi l'articolo BMC.
Andy W,

1
Quando ho scritto questo commento, ho usato REGRESSIONdopo aver trasformato il registro dei dati. Da allora ho scritto una versione più sofisticata che utilizza GLM. Mi occupo delle misurazioni delle emissioni luminose e i miei test hanno suggerito che la regressione gamma con un log-link era la meno soggetta all'incertezza in fuga sui parametri. Per la maggior parte dei miei dati reali, le risposte dall'uso normale, negativo-binomiale e gamma con log-link erano tutte molto simili (almeno per la precisione di cui avevo bisogno)
DocBuckets,

0

Non vero. I dati per la regressione logistica sono binari 0 o 1 ma il modello prevede p dice la probabilità di successo dati i predittoriXio, io=1,2,..,K dove K is the number of predictor variables in the model. Actually because of the logit function the linear model predicts the value of log(p1p). So to get the prediction for p you just do the inverse transformation p=exp(x)[1+exp(x)] where x is the predicted logit.


-1. I don't see how this answers the question (and in addition pè usato per riferirsi a due cose diverse in questa risposta).
ameba dice che ripristini Monica il

2
-1. Sono d'accordo con @amoeba. Sono perplesso sul perché questo sia mai stato votato. Non riguarda la domanda, che non assume affatto i dati binari 0 o 1 ma si concentra su proporzioni misurate che sono comprese tra 0 e 1 inclusi.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.