Estensione della regressione logistica per i risultati nell'intervallo compreso tra 0 e 1


9

Ho un problema di regressione in cui i risultati non sono rigorosamente 0, 1 ma piuttosto nell'intervallo di tutti i numeri reali da 0 a 1 incluso .Y=[0,0.12,0.31,...,1]

Questo problema è già stato discusso in questo thread , sebbene la mia domanda sia leggermente diversa.

Non posso usare la regressione lineare per gli stessi motivi per cui viene normalmente utilizzata la regressione logistica. Nella regressione lineare A) valori di IV molto elevati distorcono il risultato previsto su 1 e B) il risultato della regressione lineare non è limitato ai limiti di 0,1.

Osservando questa funzione di costo logistico dal mio libro di ho capito che l'equazione è progettata per calcolare un costo maggiore di 0 solo quando e non hanno lo stesso valore 0 o 1.

Cost=ylog(h(x))(1y)log(1h(x))
yx

Sarebbe possibile utilizzare la regressione logistica modificando la funzione di costo per misurare tutti gli errori di ipotesi?

Risposte:


9

Hai diverse opzioni. Due di loro potrebbero essere:

  1. Se trasformi la tua attraverso la trasformazione logistica potresti provare ad adattare una regressione lineare tramite minimi quadrati ordinari a quella variabile di risposta trasformata.Registro Y ( yYlog(y1y)
  2. In alternativa, è possibile adattare la variabile originale in un modello lineare generalizzato con la trasformazione logistica come variabile di collegamento e con una relazione tra la varianza di e significare la stessa cosa come se fosse una variabile binomiale, adattata da minimi quadrati iterativi ripesati. Questo è fondamentalmente lo stesso di "utilizzo della regressione logistica".Y

Quale da utilizzare dipenderebbe dalla struttura dell'errore e l'unico modo per decidere è adattarli entrambi e vedere quale ha una struttura residua che meglio si adatta alle ipotesi del modello. Il mio sospetto è che non ci sarebbe molto da scegliere tra di loro. Certamente, una di queste opzioni sarebbe un grande miglioramento sulla regressione lineare diretta con la non trasformata , per le ragioni che dici.Y


2
(+1) Opzione 2: in genere si stima quindi l'eccessiva dispersione e si usa per calcolare gli errori standard: un modello "quasi binomiale" in cui la relazione tra la varianza e la media di Y è proporzionale piuttosto che uguale a quella di una variabile binomiale.
Scortchi - Ripristina Monica

@Scortchi: è questa la glm()funzione di R quando viene alimentata con una risposta continua e family=quasibinomial? Vale a dire stimerà i coefficienti con family=binomiale quindi, in una fase aggiuntiva, calcolerà gli errori standard tenendo conto dell'eccessiva dispersione? In caso affermativo, equivale a calcolare "solidi errori standard"? Ho alcuni dati appropriati e ho provato entrambe le famiglie con glm; Ottengo coefficienti identici ma errori standard diversi. Grazie.
ameba,

1
@amoeba: Sì, è tutto. Ma "robusti errori standard" di solito significa usare uno stimatore a sandwich o simili.
Scortchi - Ripristina Monica

9

Quando Y è limitato, la regressione beta ha spesso senso; vedi l'articolo "A Better Lemon Squeezer"

Ciò consente effetti a pavimento e soffitto; consente inoltre di modellare la varianza e la media.


0

Poiché y non è rigorosamente zero o uno (come hai detto) il costo dovrebbe essere sempre maggiore di zero. Quindi, non penso che tu abbia bisogno della modifica nel modello.


0

Suggerisco due modelli alternativi:

Se i risultati (variabili y) sono ordinati, provare un modello Probit ordinato.

Se i risultati (variabili y) non sono ordinati, provare un modello Login multinomiale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.