Suggerirei di leggere libri sull'analisi dei dati categorici (cfr. Analisi dei dati categorici di Alan Agresti, 2002) per una migliore spiegazione e comprensione della regressione logistica ordinata . Tutte le domande che poni hanno sostanzialmente una risposta in alcuni capitoli di tali libri. Se sei interessato solo ad Resempi correlati, l' estensione dei modelli lineari in R di Julian Faraway (CRC Press, 2008) è un ottimo riferimento.
Prima di rispondere alle tue domande, la regressione logistica ordinata è un caso di modelli logit multinomiali in cui sono ordinate le categorie. Supponiamo di avere ordinato categorie e che per i singoli , con risposta ordinale ,
per . Con una risposta ordinata, è spesso più facile lavorare con le probabilità cumulative, . Le probabilità cumulative sono in aumento e invarianti rispetto alla combinazione di categorie adiacenti. Inoltre, , quindi abbiamo bisogno solo delle probabilità del modello .JiYipij=P(Yi=j)j=1,...,Jγij=P(Yi≤j)γiJ=1J–1
Ora vogliamo collegare s alle covariate . Nel tuo caso, è dotato di 3 livelli ordinate: , , . Ha più senso trattarli come ordinati piuttosto che non ordinati. Le restanti variabili sono le tue covariate. Il modello specifico che stai prendendo in considerazione è il modello di probabilità proporzionale ed è matematicamente equivalente a:γijxSatlowmediumhigh
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
Si chiama così perché le probabilità relative per confrontano e sono:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
Si noti che l'espressione sopra non dipende da . Naturalmente, l'assunzione di probabilità proporzionali deve essere verificata per un determinato set di dati.j
Ora risponderò ad alcune (1, 2, 4) domande.
Come si può capire se il modello si è adattato bene? il sommario (house.plr) mostra Deviance residua 3479.149 e AIC (Akaike Information Criterion?) del 3495.149. Quello è buono? Nel caso in cui siano utili solo come misure relative (cioè per confrontare con un altro modello adatto), qual è una buona misura assoluta? La devianza residua è approssimativamente distribuita al quadrato? È possibile utilizzare "% previsto correttamente" sui dati originali o una convalida incrociata? Qual è il modo più semplice per farlo?
Un modello adatto polrè uno speciale glm, quindi tutti i presupposti che valgono per una glmpresa tradizionale qui. Se ti prendi cura dei parametri correttamente, puoi capire la distribuzione. In particolare, per testare se il modello è buono o no potresti voler fare un test di bontà di adattamento , che verifica il seguente null (nota che è sottile, per lo più vuoi rifiutare il null, ma qui non vuoi rifiutalo per ottenere un buon adattamento):
Ho: current model is good enough
Per questo useresti il test chi-quadro . Il valore p si ottiene come:
1-pchisq(deviance(house.plr),df.residual(house.plr))
Il più delle volte si spera di ottenere un valore p maggiore di 0,05 in modo da non rifiutare il valore nullo per concludere che il modello è adatto (la correttezza filosofica viene ignorata qui).
AIC dovrebbe essere alto per una buona misura allo stesso tempo, non si desidera avere un gran numero di parametri. stepAICè un buon modo per verificarlo.
Sì, puoi sicuramente utilizzare la convalida incrociata per vedere se le previsioni sono valide. Vedi predictfunzione (opzione:) type = "probs"in ?polr. Tutto ciò di cui devi occuparti sono le covariate.
Quali informazioni contiene pr? La pagina di aiuto sul profilo è generica e non fornisce indicazioni per polr
Come sottolineato da @chl e altri, prcontiene tutte le informazioni necessarie per ottenere elementi della configurazione e altre informazioni relative alla probabilità di polr fit. Tutti gli glms sono adatti usando il metodo di stima del minimo quadrato ponderato iterativamente per la probabilità del log. In questa ottimizzazione si ottengono molte informazioni (consultare i riferimenti) che saranno necessarie per il calcolo della matrice di covarianza della varianza, CI, valore t ecc. Include tutte.
Come si interpretano i valori t per ciascun coefficiente? A differenza di alcuni modelli> si adatta, non ci sono valori P qui.
A differenza del normale modello lineare (speciale glm), gli altri glmnon hanno la bella distribuzione t per i coefficienti di regressione. Pertanto, tutto ciò che puoi ottenere sono le stime dei parametri e la loro matrice di covarianza della varianza asintotica usando la teoria della massima verosimiglianza. Perciò:
Variance(β^)=(XTWX)−1ϕ^
La stima divisa per il suo errore standard è ciò che BDR e WV chiamano t-value (presumo che la MASSconvenzione sia qui). È equivalente al valore t della normale regressione lineare ma non segue una distribuzione t. Usando CLT, viene distribuito asintoticamente normalmente. Ma preferiscono non usare questo approssimativo (immagino), quindi nessun valore p. (Spero di non sbagliarmi, e se lo sono, spero che BDR non sia su questo forum. Spero inoltre che qualcuno mi corregga se sbaglio.)
methods("profile")ti darà i metodi (S3 in questo caso) associati a unprofileoggetto R , quindi vedrai che esiste un metodo dedicato per ipolrrisultati, che puoi sfogliare on-line digitandogetAnywhere("profile.polr")al prompt R.