Utilizzo della regressione logistica per una variabile dipendente continua


9

Di recente ho ricevuto una revisione per il mio documento di ricerca e quanto segue è il commento del recensore sul mio documento:

i risultati ottenuti da un modello non sono abbastanza convincenti, in particolare la regressione lineare di solito presenta carenze nella gestione dei valori anomali. Suggerisco anche agli autori di provare la regressione logistica e di confrontare i risultati corrispondenti con i risultati attuali. Se si ottengono osservazioni simili, i risultati sarebbero più solidi.

Il commento del recensore è giusto? La regressione logistica è migliore della regressione lineare multipla?

Il problema è che la mia variabile dipendente non è categorica, è una variabile di scala. Cosa posso fare ora? Quale altro metodo di regressione mi consiglia di valutare il mio modello?

Il punteggio è variabile dipendente nella seguente tabella. Recency, frequenza, mandato e ultimo punteggio sono variabili indipendenti.

inserisci qui la descrizione dell'immagine

Ho estratto queste variabili da un sito e ipotizzo che queste variabili indipendenti abbiano un effetto significativo sul punteggio . Pertanto, rappresento i seguenti modelli:

inserisci qui la descrizione dell'immagine


A proposito, il valore di R al quadrato per questo modello lineare è 0,316! Anche il revisore ha commentato questo valore:

quindi i risultati non sono convincenti in quanto non esiste alcun indicatore sulla qualità dei coefficienti appresi. Un piccolo R ^ 2 non può indicare buone prestazioni in quanto il modello potrebbe essere montato eccessivamente.

0.316 è molto basso per R al quadrato? Nei precedenti articoli ho visto molti valori simili.

inserisci qui la descrizione dell'immagine


Questo è un punto secondario, ma capire come viene calcolato il punteggio può essere utile nel fornire buone risposte. Potresti modificare la tua domanda per informarci al riguardo?
whuber

Modifica il mio post. la mia conoscenza statistica non è buona. Sarei molto grato se mi aiutassi.
PSS,

1
non c'è idea di eseguire la regressione logistica su variabile dipendente continua ???
PSS,

1
Il punteggio è qualcosa che deve essere compreso tra 0 e 100? In quel caso potresti dividere per 100 e fare una regressione logistica sulla variabile risultante, che sarebbe sempre tra 0 e 1 ... mi sembra un po 'strano fare le cose in quel modo, e non sono sicuro di quanto sia sensato, ma forse è quello che suggerisce il recensore?
Sam Livingstone,

2
No, il ridimensionamento a 0-1 o l'eliminazione di informazioni preziose e la classificazione del punteggio non sono affatto buone soluzioni.
Frank Harrell,

Risposte:


7

Il modello di regressione logistica ordinaria delle probabilità proporzionali dovrebbe funzionare bene per questo problema. Per un'implementazione efficiente che può consentire migliaia di valori univoci , vedere la funzione nel pacchetto R.Yormrms


Ho installato R e tutti i pacchetti necessari. potresti fornire qualche esempio per la funzione orm? Non l'ho trovato cercando. Per il mio modello di regressione, quale dovrebbe essere il codice?
PSS,

1
Vale la pena dedicare tempo allo studio della documentazione. Vedi Dispense sotto biostat.mc.vanderbilt.edu/CourseBios330 per un case study dettagliato con codice - il capitolo sui modelli di regressione per continuo . Y
Frank Harrell,

1

potresti anche provare i modelli probit / logit ordinati assegnando i valori 1, 2,3 e 4 ai punteggi rispettivamente nel 1 °, ..... 4 ° percentile.


Quale variabile stai proponendo di ridurre ai quattro percentili più bassi (su 100)? Cosa compirebbe questo e perché?
whuber

-1

È possibile dichiarare (convertire in una variabile binaria) il punteggio. Se il punteggio è compreso tra 0 e 100, è possibile assegnare 0 a qualsiasi punteggio inferiore a 50 e 1 altrimenti. Non ho mai sentito prima che questo sia un buon modo di gestire i valori anomali. Questo potrebbe nascondere degli outlier poiché sarà impossibile distinguere punteggi molto alti o bassi. Questo non ha molto senso per me, ma puoi provarlo.

Ancora più importante perché stai registrando la trasformazione di tutte le tue covariate e la tua variabile di risposta? Questo influenzerà le tue stime e il tuo (credo).R 2βR2

Anche il recensore afferma che un piccolo suggerisce un eccesso di adattamento? Pensavo che il sovradimensionamento fosse quando il tuo è alto ma il tuo modello si comporta male sui nuovi dati (cioè si adatta ai tuoi dati ma non si generalizza a nuovi dati). Il sovradimensionamento tende a verificarsi quando si hanno poche osservazioni che si sta tentando di prevedere con un gran numero di parametri. Questo è ciò che stai facendo nel tuo Modello 2 poiché hai 8 osservazioni che stai cercando di spiegare con 7 parametri.R 2R2R2

Non ho intenzione di fingere di conoscere molto le statistiche, ma mi sembra, sulla base dei suoi commenti, che questo recensore possa sapere anche meno.


Grazie mille per la tua risposta Poiché tutte le variabili sono inclinate, quindi le ho trasformate in log naturali. Ho ragione? Grazie per aver chiarito che cosa significa "sovralimentazione"! In realtà, non sapevo cosa significasse sovradimensionamento. Ora posso rispondere al revisore e all'editore. A proposito, qual è la tua raccomandazione per me di rendere la mia valutazione più solida? quale metodo di regressione pensi sia migliore?
PSS,

6
Y

Sono d'accordo con @FrankHarrell che la scelta di una soglia arbitraria per la dicotomizzazione dei dati non ha alcun senso. Questo è il tuo intero set di dati? Se hai così poche osservazioni, i tuoi dati non sembreranno mai distribuiti normalmente! Inoltre, devi capire anche il tipo di dati con cui hai a che fare. Quale gamma di valori possono assumere, è ragionevole supporre che debbano essere distribuiti normalmente? Esaminerò il suggerimento di Frank di usare la regressione logistica ordinale, ma la mia ipotesi è che usi l'ordine dei punteggi anziché il loro valore nella regressione.
pontikos,

@PotentialScientist, non importa se le tue distribuzioni sono distorte. Nella regressione OLS (tipica), conta solo la distribuzione dei residui, vedi qui: che cosa succede se i residui sono normalmente distribuiti ma non lo sono . Potresti anche voler leggere questo: interpretazione del log trasformato-predittore , per capire cosa è successo al tuo modello a seguito della trasformazione dei tuoi predittori.
gung - Ripristina Monica

@PotentialScientist come stai andando? Se modifichi la tua domanda per fornire i dati in formato CSV, posso provare a eseguire la funzione orm suggerita dal Prof Harrell e possiamo analizzare l'output. Vale la pena imparare le basi di R (come leggere in un file ed eseguire una regressione).
pontikos,

-1

È possibile applicare la regressione logistica anche a una variabile dipendente continua. Ha senso, se vuoi assicurarti che il pronostico scoresia sempre all'interno [0, 100](giudico dai tuoi screenshot che è su una scala di 100 punti).

Per realizzarlo, basta dividere il punteggio di 100, ed eseguire la regressione logistica con questo [0,1]- variabile obiettivo base, come in questa domanda - si può fare, per esempio, con R, utilizzando

glm(y~x, family="binomial", data=your.dataframe)

R2

R20.3R2R2

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.