Un ponderato in un modello lineare robusto è significativo per la bontà dell'analisi di adattamento?


19

Ho stimato un modello lineare robusto Rcon pesi MM usando il rlm()pacchetto MASS. `R`` non fornisce un valore per il modello, ma vorrei averne uno se si tratta di una quantità significativa. Sono anche interessato a sapere se c'è qualche significato nell'avere un valore che pesa la varianza totale e residua nello stesso modo in cui le osservazioni sono state ponderate nella robusta regressione. Il mio pensiero generale è che, se, ai fini della regressione, siamo essenzialmente con i pesi che danno ad alcune delle stime meno influenza perché sono in qualche modo anomali, allora forse allo scopo di calcolare dovremmo anche dare quelle stesse stime meno influenza?R2R2r2

Ho scritto due semplici funzioni per e ponderate , sono in basso. Ho anche incluso i risultati dell'esecuzione di queste funzioni per il mio modello che si chiama HI9. EDIT: ho trovato la pagina Web di Adelle Coster di UNSW che fornisce una formula che include il vettore dei pesi nel calcolo del calcolo di entrambi e proprio come ho fatto, e le ho chiesto un riferimento più formale: http: //web.maths. unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html ( sto ancora cercando aiuto da Cross Convalidato su come interpretare questo ponderato )R2R2R2SSeSStr2

#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){  
+ SSe <- sum((x$resid)^2);  
+ observed <- x$resid+x$fitted;  
+ SSt <- sum((observed-mean(observed))^2);  
+ value <- 1-SSe/SSt;  
+ return(value);  
+ }  
r2(HI9)  
[1] 0.2061147

#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted      
+ value <- 1-SSe/SSt;
+ return(value);
+ }
 > r2ww(HI9)
[1] 0.7716264

Grazie a chiunque passi il tempo a rispondere a questo. Ti prego di accettare le mie scuse se ci sono già degli ottimi riferimenti su questo che mi sono perso o se il mio codice sopra è difficile da leggere (non sono un tipo di codice).


metti i pesi dentro lm () e prendi il quadrato r da lì (perché reinventare la ruota?)
user603

1
grazie per il suggerimento su un modo per fare ciò che ho fatto in modo più efficiente. qualcuno può commentare il significato del r-quadrato ponderato che ho descritto / proposto?
CraigMilligan,

@ user603: Come faresti a mettere i pesi dentro lm ()?
histelheim,

Solo per un complimento, il quadrato minimo ponderato inserito in R è minimizzando la somma (w * e ^ 2), dove e è il residuo. Quindi per il tuo codice di calcolo, tutto il peso w dovrebbe essere preso una radice quadrata.
Yuanhao Lai,

Voglio sottolineare che non dobbiamo prendere una media ponderata, almeno credo che, poiché un programma che ho scritto dà un r-quadrato vicino a 1 con: r-quadrato classico ponderato r-quadrato ma NON con r- ponderato al quadrato dove viene pesata anche la media, trovo -6 è controintuitivo anche per me, ma credo comunque che l'esperienza
pierre

Risposte:


22

La seguente risposta si basa su: (1) la mia interpretazione di Willett e Singer (1988) Un'altra nota cautelativa sull'R-quadrato: è usato nell'analisi di regressione dei minimi quadrati ponderata. Lo statistico americano. 42 (3). pp236-238 e (2) la premessa che la regressione lineare robusta è essenzialmente ponderata alla regressione dei minimi quadrati con i pesi stimati da un processo iterativo.

La formula che ho dato alla domanda per r2w ha bisogno di una piccola correzione per corrispondere all'equazione 4 in Willet e Singer (1988) per r2wls: il calcolo SSt dovrebbe anche usare una media ponderata:

the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].

Qual è il significato di questo r-quadrato ponderato (corretto)? Willett e Singer lo interpretano come: "il coefficiente di determinazione nel set di dati trasformato [ponderato]. È una misura della proporzione della variazione in Y ponderata che può essere spiegata da X ponderata , ed è la quantità che viene prodotta come R2 dai principali pacchetti statistici di computer quando viene eseguita una regressione WLS ".

È significativo come misura della bontà di adattamento? Questo dipende da come viene presentato e interpretato. Willett e Singer avvertono che in genere è un po 'più alto del quadrato r ottenuto nella regressione dei minimi quadrati ordinari e l'alto valore incoraggia un display prominente ... ma questo display può essere ingannevole SE viene interpretato nel senso convenzionale di r -quadrato (come la proporzione di non ponderatovariazione spiegata da un modello). Willett e Singer propongono che un'alternativa meno "ingannevole" sia lo pseudoR2wls (la loro equazione 7), che equivale alla mia funzione r2 nella domanda originale. In generale, Willett e Singer avvertono anche che non è bene fare affidamento su qualsiasi r2 (anche i loro pseudor2wls) come unica misura di bontà di adattamento. Nonostante queste precauzioni, la premessa di una forte regressione è che alcuni casi sono giudicati "non buoni" e non contano tanto nell'adattamento del modello, e può essere utile riflettere questo in una parte del processo di valutazione del modello. Il r-quadrato ponderato descritto può essere una buona misura della bontà dell'adattamento - a condizione che l'interpretazione corretta sia chiaramente fornita nella presentazione e non sia considerata come l'unica valutazione della bontà dell'adattamento.


1
(+1). Grazie per aver dedicato del tempo a mettere la risposta.
user603

1

@CraigMilligan. Non dovrebbe:

  • il peso è al di fuori della parentesi quadrata
  • la media ponderata deve essere calcolata secondo la quale possiamo anche usaresum(x$w*observed)/sum(x$w)weighted.mean(observed,x$w)

Qualcosa come questo:

r2ww <- function(x){
  SSe <- sum(x$w*(x$resid)^2)
  observed <- x$resid+x$fitted
  SSt <- sum(x$w*(observed-weighted.mean(observed,x$w))^2)
  value <- 1-SSe/SSt;
  return(value);
}
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.