Ho i dati sul vino da qui che consistono in 11 variabili numeriche indipendenti con una valutazione dipendente associata ad ogni voce con valori compresi tra 0 e 10. Questo rende un grande set di dati per utilizzare un modello di regressione per studiare la relazione tra le variabili e gli associati valutazione. Tuttavia, la regressione lineare sarebbe appropriata o è meglio usare la regressione logistica multinomiale / ordinata?
La regressione logistica sembra meglio date categorie specifiche, cioè non una variabile dipendente continua ma (1) ci sono 11 categorie (un po 'troppe?) E (2) al momento dell'ispezione, ci sono solo dati per 6-7 di quelle categorie, cioè le rimanenti 5-4 categorie non hanno alcun esempio nel set di dati.
D'altra parte, la regressione lineare dovrebbe stimare linearmente una valutazione tra 0-10 che sembra più vicina a ciò che sto cercando di scoprire; tuttavia la variabile dipendente non è continua nel set di dati.
Qual è l'approccio migliore? Nota: sto usando R per l'analisi
Modifica, affrontando alcuni dei punti citati nelle risposte:
- Non ci sono obiettivi di business in quanto questo è in realtà per un corso universitario. Il compito è quello di analizzare un set di dati di scelta in qualunque modo ritenga opportuno.
- La distribuzione dei voti sembra normale (istogramma / qq-plot). I valori effettivi nel set di dati sono compresi tra 3-8 (anche se tecnicamente 0-10).