Regressione lineare o regressione logistica ordinale per prevedere la valutazione del vino (da 0 e 10)


18

Ho i dati sul vino da qui che consistono in 11 variabili numeriche indipendenti con una valutazione dipendente associata ad ogni voce con valori compresi tra 0 e 10. Questo rende un grande set di dati per utilizzare un modello di regressione per studiare la relazione tra le variabili e gli associati valutazione. Tuttavia, la regressione lineare sarebbe appropriata o è meglio usare la regressione logistica multinomiale / ordinata?

La regressione logistica sembra meglio date categorie specifiche, cioè non una variabile dipendente continua ma (1) ci sono 11 categorie (un po 'troppe?) E (2) al momento dell'ispezione, ci sono solo dati per 6-7 di quelle categorie, cioè le rimanenti 5-4 categorie non hanno alcun esempio nel set di dati.

D'altra parte, la regressione lineare dovrebbe stimare linearmente una valutazione tra 0-10 che sembra più vicina a ciò che sto cercando di scoprire; tuttavia la variabile dipendente non è continua nel set di dati.

Qual è l'approccio migliore? Nota: sto usando R per l'analisi

Modifica, affrontando alcuni dei punti citati nelle risposte:

  • Non ci sono obiettivi di business in quanto questo è in realtà per un corso universitario. Il compito è quello di analizzare un set di dati di scelta in qualunque modo ritenga opportuno.
  • La distribuzione dei voti sembra normale (istogramma / qq-plot). I valori effettivi nel set di dati sono compresi tra 3-8 (anche se tecnicamente 0-10).

Risposte:


9

Un modello logit ordinato è più appropriato in quanto hai una variabile dipendente che è una classifica, ad esempio 7 è meglio di 4. Quindi c'è un ordine chiaro.

Ciò consente di ottenere una probabilità per ciascun cestino. Vi sono alcuni presupposti che è necessario prendere in considerazione. Puoi dare un'occhiata qui .

Una delle ipotesi alla base della regressione logistica ordinale (e probit ordinale) è che la relazione tra ciascuna coppia di gruppi di risultati è la stessa. In altre parole, la regressione logistica ordinale presuppone che i coefficienti che descrivono la relazione tra, diciamo, le categorie più basse rispetto a tutte le categorie superiori della variabile di risposta siano le stesse che descrivono la relazione tra la categoria più bassa successiva e tutte le categorie superiori, ecc. Questo si chiama ipotesi di probabilità proporzionale o ipotesi di regressione parallela.

Qualche codice:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Puoi avere ulteriori spiegazioni qui , qui , qui o qui .

Tieni presente che dovrai trasformare i tuoi coefficienti in odds ratio e quindi in probabilità per avere una chiara interpretazione in termini di probabilità.

In modo semplice (e semplicistico) puoi calcolarli come segue:

eXp(βio)=OddSRun'tioo

eXp(β1)ΣeXp(βio)=ProBun'Biolioty

(Non voglio essere troppo tecnico)


4

Vorrei fornire un'altra visione del problema: nel mondo reale, è meno probabile che si verifichi questa domanda, perché cosa fare dipende dalle esigenze aziendali .

La domanda essenziale nel mondo reale è cosa fare dopo aver ottenuto la previsione?

  • Supponiamo che le aziende vogliano eliminare il vino di "bassa qualità". Quindi, abbiamo bisogno di una definizione di "quanto male è cattivo" (diciamo qualità inferiore a ). Con la definizione, è necessario utilizzare la regressione logistica binaria, poiché la decisione è binaria. (trash o keep, non c'è niente in mezzo).2

  • Supponiamo che le aziende vogliano selezionare del buon vino da inviare a tre tipi di ristoranti. Quindi, sarà necessaria una classificazione multi-classe.

In conclusione, voglio sostenere che cosa fare realmente dipende dalle esigenze dopo aver ottenuto la previsione, invece di guardare semplicemente l'attributo della variabile di risposta.


1

Sebbene un modello logit ordinato (come dettagliato da @ adrian1121) sarebbe più appropriato in termini di ipotesi di modello, penso che anche la regressione lineare multipla presenti alcuni vantaggi.

  1. Facilità d'interpretazione . I modelli lineari sono più facili da interpretare rispetto ai modelli logit ordinati.
  2. Comfort per gli stakeholder . Gli utenti del modello potrebbero essere più a loro agio con la regressione lineare perché hanno maggiori probabilità di sapere di cosa si tratta.
  3. Più parsimonioso (più semplice). Anche il modello più semplice può funzionare, vedi argomento correlato .

Il fatto che la maggior parte delle risposte sia compresa tra 3 e 8, mi suggerisce che un modello lineare può funzionare adeguatamente per le tue esigenze. Non sto dicendo che è "migliore", ma potrebbe essere un approccio più pratico.


0

In linea di principio il modello logit ordinato sembra appropriato, ma 10 (o addirittura 7) categorie sono piuttosto numerose.

1 / Alla fine avrebbe senso fare un po 'di ricodifica (ad esempio, i voti 1-4 verrebbero fusi in 1 singola modalità, diciamo "basso rating")?

2 / Qual è la distribuzione dei rating? Se distribuito abbastanza bene normalmente, una regressione lineare farebbe un buon lavoro (vedi modello di probabilità lineare ).

3 / Altrimenti sceglierei qualcosa di completamente diverso chiamato " regressione beta " - Una scala di valutazione a 11 punti è piuttosto dettagliata rispetto alla classica scala a 5 punti - Penso che sarebbe accettabile considerare la scala di valutazione come "intensità" scala dove 0 = Null e 1 = Full / Perfect - In questo modo, supponeresti fondamentalmente che la tua scala sia di tipo intervallo (piuttosto che ordinale), ma per me suona accettabile.


3
Perché sono 10 (o 7) categorie molto? C'è qualche ragione tecnica fondamentale per cui 10 categorie non si comporteranno in modo appropriato in un modello logit ordinato, o stai parlando da una prospettiva puramente pratica? (ad esempio considerazioni simili alla risposta data da hxd1011).
RM

No, non esiste alcun motivo tecnico purché i dati consentano di stimare un logit ordinato (OL) con "così tante" categorie. Tuttavia, la specifica di un modello OL con 11 categorie implica la stima di 10 termini "costanti" (ovvero parametri di soglia) - Mi sembra molto, soprattutto se alcune categorie non sono ben rappresentate nel database - La mia sensazione è che un modello OL per 11 categorie sono un po 'esagerate, o tratterei le valutazioni come variabili continue o comprimerei alcune modalità per specificare un modello OL più parsimonioso (e forse più significativo).
Umka,

-1

Non sono uno specialista della regressione logistica, ma direi che vuoi usare il multinomiale a causa della tua variabile dipendente discreta.

Una regressione lineare potrebbe generare coefficienti che possono essere estrapolati dai possibili limiti della variabile dipendente (ovvero un aumento della variabile indipendente porterebbe a una variabile dipendente fuori dal limite per il coefficiente di regressione dato).

La regressione multinomiale fornirà le diverse probabilità per i diversi esiti della variabile dipendente (ovvero il coefficiente della regressione ti darà come aumentano la loro probabilità di dare un punteggio migliore, senza che il punteggio superi i limiti).


3
Multinomial è buono per più categorie non ordinate. La logistica ordinale (cosa propone l'OP nella domanda) va bene per più categorie ordinate.
Gregor

-1

Un'altra possibilità è quella di utilizzare una foresta casuale. Esistono due modi per misurare "l'importanza" di una variabile in una foresta casuale:

  1. XjXjXjYX
  2. XjXj

Le foreste casuali sono anche suscettibili di un tipo di visualizzazione dei dati chiamato "diagramma di dipendenza parziale". Vedi questo tutorial approfondito per maggiori dettagli.

La dipendenza parziale e l'importanza della permutazione non sono specifiche dei modelli Foresta casuale, ma la loro popolarità è cresciuta insieme alla popolarità delle foreste casuali a causa di quanto sia efficiente calcolarle per i modelli foresta casuale.


1
So che è una risposta in qualche modo tangenziale, ma mi piacerebbe sapere perché questo è stato sottoposto a downgrade. È errato?
Shadowtalker
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.