Come scegliere tra le diverse formule rettificate ?


15

Ho in mente le formule rettificate R-quadrato proposte da:

  • Ezekiel (1930), che credo sia quello attualmente utilizzato in SPSS.

    Radjusted2=1(N1)(Np1)(1R2)
  • Olkin and Pratt (1958)

    Runbiased2=1(N3)(1R2)(Np1)2(N3)(1R2)2(Np1)(Np+1)

In quali circostanze (se ce ne sono) dovrei preferire "aggiustato" a "imparziale" R2 ?

Riferimenti

  1. Ezekiel, M. (1930). Metodi di analisi di correlazione . John Wiley and Sons, New York.
  2. Olkin I., Pratt JW (1958). Stima imparziale di alcuni coefficienti di correlazione. Annals of Mathematical Statistics , 29 (1), 201-211.

Risposte:


5

Senza voler prendermi il merito della risposta di @ttnphns, volevo spostare la risposta fuori dai commenti (soprattutto considerando che il link all'articolo era morto). La risposta di Matt Krause fornisce un'utile discussione della distinzione tra R2 e Radj2 ma non discute la decisione di quale formula Radj2 utilizzare in un determinato caso.

Come discuterò in questa risposta , Yin e Fan (2001) forniscono una buona panoramica delle molte diverse formule per stimare la varianza della popolazione spiegate , che potrebbero potenzialmente essere etichettate come un tipo di aggiustato .R 2ρ2R2

Eseguono la simulazione per valutare quale di una vasta gamma di formule rettificate r-quadrato fornisce la migliore stima imparziale per diverse dimensioni del campione, e intercorrelazioni predittive. Suggeriscono che la formula di Pratt potrebbe essere una buona opzione, ma non credo che lo studio sia stato definitivo in materia.ρ2

Aggiornamento: Raju et al (1997) notano che le formule aggiustate differiscono in base al fatto che siano progettate per stimare aggiustate ipotizzando predittori x fissi o casuali. In particolare, la formula di Ezekial è progettata per stimare nel contesto fixed-x, e le formule Olkin-Pratt e Pratt sono progettate per stimare nel contesto random-x. Non c'è molta differenza tra le formule Olkin-Pratt e Pratt. I presupposti di fixed-x si allineano con gli esperimenti pianificati, i presupposti di random-x si allineano quando si assume che i valori delle variabili predittive siano un campione di possibili valori, come è generalmente il caso negli studi osservazionali. Vedi questa risposta per ulteriori discussioniR 2 ρ 2 ρ 2R2R2ρ2ρ2. Inoltre, non c'è molta differenza tra i due tipi di formule poiché le dimensioni del campione diventano moderatamente grandi (vedi qui per una discussione sulla dimensione della differenza ).

Riepilogo delle regole del pollice

  • Se supponi che le tue osservazioni per le variabili predittive siano un campione casuale di una popolazione e desideri stimare per l'intera popolazione di predittori e criteri (ovvero ipotesi random-x), usa la formula di Olkin-Pratt (o la formula di Pratt).ρ2
  • Se supponi che le tue osservazioni siano fisse o non desideri generalizzare oltre i livelli osservati del predittore, allora stima con la formula di Ezechiele.ρ2
  • Se si desidera conoscere la previsione fuori campione utilizzando l'equazione di regressione del campione, è necessario esaminare una qualche forma di procedura di convalida incrociata.

Riferimenti

  • Raju, NS, Bilgic, R., Edwards, JE e Fleer, PF (1997). Revisione metodologica: stima della validità e della cross-validità della popolazione e uso di pesi uguali nella previsione. Misurazione psicologica applicata, 21 (4), 291-305.
  • Yin, P., & Fan, X. (2001). Stima del restringimento di nella regressione multipla: un confronto tra diversi metodi analitici. The Journal of Experimental Education, 69 (2), 203-224. PDFR2

13

La scelta di o adeguati dipende da quello che stai cercando di fare. In un contesto di regressione, regolare viene utilizzato come misura di bontà di adattamento per il modello. Tuttavia, immagina di confrontare diversi modelli con un numero diverso di parametri. A parità di condizioni, il modello con più parametri si adatterà più da vicino alla tua osservazione. Nel limite, potresti avere un modello con parametri per ogni punto dati tranne uno; questo ti darebbe un adattamento perfetto alle tue osservazioni, ma sarebbe inutile per una nuova previsione poiché catturerebbe sia il "segnale" sottostante che qualsiasi rumore associato. rettificato è un tentativo di risolvere questo problema regolandoR 2 R 2 R 2 R 2R2R2R2R2R2 valore in base al numero di parametri nel modello.

Pertanto hanno scopi leggermente diversi. descrive in che misura diversi set di dati si adattano a un modello. Potresti scrivere qualcosa del tipo "Il modello sopra descritto prevede accuratamente le prestazioni della Parte A ( = 0,9), ma non il Widget B ( = 0,05) in condizioni di test standard." rettificato descrive come modelli diversi si adattano agli stessi dati (o dati simili). Ad esempio, "I risultati del questionario di breve e lunga durata hanno previsto ugualmente bene la spesa annuale del cliente (rettificato = 0,8 per entrambi)."R2r2r2R2R2


2
Grazie, ho scoperto che si tratta di una spiegazione molto chiara della differenza tra R-quadrato e R-quadrato regolato. Secondo te come si inserisce il quadrato R imparziale in questa immagine?
user1205901 - Ripristina Monica

5
Esistono infatti varie formule per stimare la popolazione R ^ 2. Vedi ad esempio studyforquals.pbworks.com/f/yin.pdf . Si dice che Fisher (= Wherry) "Adjusted R ^ 2" sia leggermente distorto negativamente (dipende ancora dalla dimensione del campione mentre non dipende dal numero di predittori), quindi la versione di Olkin-Pratt è probabilmente un po 'migliore.
ttnphns,

1
@ttnphns, forse dovrebbe essere una risposta anziché un commento. Per me, sembra rispondere alla domanda originale più di questa risposta.
gung - Ripristina Monica

1
R2R2

1
@ttnphns, sono d'accordo con Gung! Dovresti scrivere una risposta e prendere un po 'di credito. Inoltre, puoi confermare quello che ho scritto? JStor si comporta in modo strano oggi e non mi lascia leggere il documento originale Olkin e Pratt.
Matt Krause,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.