Regressione basata ad esempio nei giorni della settimana


11

Ho bisogno di un piccolo aiuto per muovermi nella giusta direzione. È da tanto che non studio tutte le statistiche e il gergo sembra essere cambiato.

Immagina di avere una serie di dati relativi all'auto come

  • Durata del viaggio dalla città A alla città B
  • Distanza dalla città A alla città B
  • Cilindrata
  • Misura della scarpa del conducente
  • Marca e modello dell'auto
  • Giorno della settimana

Voglio prevedere il tempo di viaggio.

Immagino che ci sia una forte correlazione tra tempo e distanza e probabilmente una più debole per le dimensioni del motore (e nessuna per le dimensioni delle scarpe). Presumibilmente l'analisi della regressione multipla / ANOVA è lo strumento da utilizzare. Ma come posso includere il giorno della settimana, dal momento che codificarlo come domenica = 1, lunedì = 2 ecc. Sembra molto sbagliato?

Avendo utilizzato lo strumento di regressione di Excel, ad esempio, come posso interpretare i risultati? Presumibilmente se R è vicino a 1 questo è buono (anche se ci sono molti elementi di dati sembra che possa essere piccolo ma essere comunque significativo). Ma alcune fonti si riferiscono a r-quadrato che sembra essere la SD, quindi un valore vicino a zero è buono. Mostra anche t Stat, P-value, F e Significance F, qualunque essi siano. Qualcuno può raccomandare una buona fonte di riferimento?


2
Per la cronaca, queste domande (sull'interpretazione dell'output di regressione) sono state poste in un altro thread qui , ma la domanda è stata formulata così male che non ha raccolto buone risposte. Questa è una domanda fondamentale che merita una risposta "canonica" che sia elementare ma completa, chiara e ben spiegata.
whuber

Risposte:


26

Ciò di cui hai bisogno è una solida revisione della metodologia di regressione. Tuttavia, queste domande sono sufficientemente basilari (non prenderle nel modo sbagliato) che probabilmente anche una buona panoramica delle statistiche di base potrebbe trarne beneficio. Howell ha scritto un libro di testo molto popolare che fornisce un'ampia base concettuale senza richiedere una densa matematica. Potrebbe valere la pena leggerlo. Non è possibile coprire tutto quel materiale qui. Tuttavia, posso provare a iniziare con alcune delle tue domande specifiche.

Innanzitutto, i giorni della settimana sono inclusi tramite uno schema di codifica. Il più popolare è la codifica della "categoria di riferimento" (in genere chiamata codifica fittizia). Immaginiamo che i tuoi dati siano rappresentati in una matrice, con i tuoi casi in righe e le tue variabili in colonne. In questo schema, se avessi 7 variabili categoriali (ad esempio, per i giorni della settimana) aggiungeresti 6 nuove colonne. Sceglieresti un giorno come categoria di riferimento, generalmente quella considerata come predefinita. Spesso questo è informato dalla teoria, dal contesto o dalla domanda di ricerca. Non ho idea di quale sarebbe la cosa migliore per i giorni della settimana, ma non ha molta importanza, potresti sceglierne una qualsiasi. Una volta che hai la categoria di riferimento, puoi assegnare gli altri alle tue nuove 6 variabili, quindi indichi semplicemente se quella variabile ottiene per ogni caso. Ad esempio, supponi di scegliere Domenica come categoria di riferimento, le tue nuove colonne / variabili saranno dal lunedì al sabato. Ogni osservazione che ha avuto luogo un lunedì sarebbe indicata con a1010

È passato molto tempo da quando ho visto come Excel fa le statistiche e non me lo ricordo molto chiaramente, quindi qualcun altro potrebbe essere in grado di aiutarti di più lì. Questa pagina sembra avere alcune informazioni sulle specifiche della regressione in Excel. Posso dirti un po 'di più sulle statistiche tipicamente riportate nell'output di regressione:

  • r1
  • rrrrr
  • rr×r10r1R21rR2) è fortemente influenzato dalla regressione multipla. Cioè, più predittori aggiungi al tuo modello, più alte saranno queste statistiche, indipendentemente dal fatto che ci sia o meno una relazione. Quindi dovresti essere cauto nell'interpretarli.
  • tF
  • p
  • tFpF1F
  • FF

Un ultimo punto che vale la pena sottolineare è che questo processo non può essere divorziato dal suo contesto. Per fare un buon lavoro di analisi dei dati, devi tenere a mente le tue conoscenze di base e la domanda di ricerca. Ho accennato a questo sopra per quanto riguarda la scelta della categoria di riferimento. Ad esempio, noti che il numero di scarpe non dovrebbe essere rilevante, ma per i Flintstones probabilmente lo era! Voglio solo includere questo fatto, perché spesso sembra essere dimenticato.


5
(+1) Excel può effettivamente eseguire una regressione multipla e dispone di un comando in grado di produrre una tabella di riepilogo standard. Data la sua tendenza storica ad essere (molto) sciatta con il calcolo dei valori distributivi, la capacità deve essere vista come il cane di Samuel Johnson : "... un cane cammina sulle sue zampe posteriori. Non è fatto bene; ma sei sorpreso di trovare fatto a tutti ".
whuber

3

Si termina con molte domande che richiedono la regressione "dell'insegnamento". Lasciami dire che R ^ 2 più alto è meglio ma ci sono avvertimenti. R ^ 2 aumenta sempre quando aggiungi variabili in modo da poterle gonfiare artificialmente. Guarda i test di significatività, guarda la diagnostica residua, ecc. Rispetto al giorno della settimana, lunedì = 1, martedì = 2, ecc. Non sarebbe la strada da percorrere. Quello che vuoi sono le variabili dell'indicatore stagionale: 0/1 se lunedì, 0/1 se martedì, ecc.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.