Di recente, sono stato interessato all'implementazione di un modello di regressione beta, per un risultato che è proporzionale. Si noti che questo risultato non si adatterebbe al contesto binomiale, poiché in questo contesto non esiste un concetto significativo di "successo" discreto. In effetti, il risultato è in realtà una proporzione di durate; il numeratore è il numero di secondi mentre una determinata condizione è attiva sul numero totale di secondi durante i quali la condizione era ammissibile per essere attiva. Mi scuso per i capricci, ma non voglio concentrarmi troppo su questo preciso contesto, perché mi rendo conto che ci sono una varietà di modi in cui un tale processo potrebbe essere modellato oltre alla regressione beta, e per ora sono più interessato specificamente alla teoria domande che sono sorte nei miei tentativi di attuare un tale modello (anche se, ovviamente,
In ogni caso, tutte le risorse che sono stato in grado di trovare hanno indicato che la regressione beta è in genere adatta utilizzando un collegamento logit (o probit / cloglog) e i parametri interpretati come cambiamenti nelle probabilità del log. Tuttavia, devo ancora trovare un riferimento che fornisca effettivamente qualsiasi vera giustificazione per il motivo per cui si vorrebbe utilizzare questo collegamento.
Il documento originale Ferrari & Cribari-Neto (2004) non fornisce una giustificazione; notano solo che la funzione logit è "particolarmente utile", a causa dell'interpretazione del rapporto di probabilità dei parametri esponenziali. Altre fonti alludono al desiderio di mappare dall'intervallo (0,1) alla linea reale. Tuttavia, abbiamo necessariamente bisogno di una funzione di collegamento per tale mappatura, dato che stiamo già assumendo una distribuzione beta? Quali vantaggi offre la funzione di collegamento al di là dei vincoli imposti dall'ipotesi che la distribuzione beta inizi?Ho eseguito un paio di simulazioni rapide e non ho visto previsioni al di fuori dell'intervallo (0,1) con un collegamento di identità, anche durante la simulazione da distribuzioni beta la cui massa di probabilità è ampiamente raggruppata vicino a 0 o 1, ma forse le mie simulazioni non sono stati abbastanza generici da cogliere alcune delle patologie.
Mi sembra basato sul modo in cui gli individui, in pratica, interpretano le stime dei parametri dai modelli di regressione beta (cioè come rapporti di probabilità) che implicitamente stanno facendo una deduzione rispetto alle probabilità di un "successo"; cioè usano la regressione beta come sostituto di un modello binomiale. Forse questo è appropriato in alcuni contesti, dato il rapporto tra beta e distribuzioni binomiali, ma mi sembra che questo dovrebbe essere più un caso speciale di quello generale. In questa domanda, viene fornita una risposta per l'interpretazione del rapporto di probabilità rispetto alla proporzione continua piuttosto che al risultato, ma mi sembra inutilmente ingombrante cercare di interpretare le cose in questo modo, invece di usare, diciamo, un registro o collegamento identità e interpretazione di% variazioni o spostamenti di unità.
Quindi, perché utilizziamo il collegamento logit per i modelli di regressione beta? È semplicemente una questione di convenienza, collegarlo ai modelli binomiali?