Un


23

Nelle statistiche stiamo facendo regressioni lineari, il loro inizio. In generale, sappiamo che maggiore è l' meglio è, ma c'è mai uno scenario in cui un R 2 alto sarebbe un modello inutile?R2R2


8
La risposta su stats.stackexchange.com/questions/13314 potrebbe darti alcune idee.
whuber

2
C'è una situazione discussa qui , con un esempio. Ad esempio, se nell'esempio ci fossero regrediti i risultati di coin1 su coin2, otterresti oltre l'85%, ma quella relazione apparente è del tutto falsa. R2
Glen_b

2
non è un modello. Quindi dovresti dire "... un R 2 altoverrebbe da un modello inutile" o qualcosa di simile piuttosto che "... un R 2 altosarebbe un modello inutile". R2R2R2
Richard Hardy,


Risposte:


43

Sì. I criteri per la valutazione di un modello statistico dipendono dal problema specifico attuale e non sono alcune funzioni meccaniche di o significatività statistica (sebbene siano importanti). La domanda rilevante è "il modello ti aiuta a capire i dati?"R2

Regressioni insignificanti con R 2 elevatoR2

  1. Il modo più semplice per ottenere alto è fare l'equivalente di regredire le scarpe giuste sulle scarpe sinistre. Dimmi la misura della tua scarpa destra e posso prevedere la misura della tua scarpa sinistra con grande precisione. Enorme R 2 ! Che grande modello statistico! Tranne che significa cacca diddly. Puoi ottenere un ottimo R 2 mettendo la stessa variabile sul lato sinistro e destro di una regressione, ma questa enorme regressione di R 2 sarebbe quasi certamente inutile.R2R2R2R2

  2. Ci sono altri casi in cui includere una variabile sul lato destro è concettualmente la cosa sbagliata da fare (anche se aumenta ). Supponiamo che tu stia cercando di stimare se un gruppo di minoranza è discriminato e ha meno probabilità di ottenere un lavoro. Non dovresti controllare se la società ha richiamato dopo la domanda di lavoro perché essere meno propensi a rispondere alle domande di lavoro delle minoranze potrebbe essere il canale attraverso il quale si verifica la discriminazione! L'aggiunta di un controllo errato può rendere insignificante la regressione.R2

  3. Puoi sempre aumentare aggiungendo più regressori! Posso continuare ad aggiungere regressori sul lato destro finché non ottengo qualunque R 2 che mi piace. Per prevedere i guadagni della manodopera, potrei aggiungere controlli sull'istruzione, controlli dell'età, effetti fissi di un quarto, effetti fissi di codice postale, effetti fissi di occupazione, effetti fissi fissi, effetti fissi familiari, effetti fissi di animali domestici, lunghezza dei peli ecc ... ad un certo punto i controlli smette di avere senso ma R 2 continua a salire. L'aggiunta di tutto come regressore è nota come regressione del "lavello della cucina". Puoi ottenere un R 2 elevato ma potresti massicciare eccessivamente i dati: il tuo modello prevede perfettamente il campione utilizzato per stimare il modello (ha un R elevatoR2R2R2R2 ) ma il modello stimato fallisce orribilmente su nuovi dati.R2

  4. La stessa idea può manifestarsi nell'adattamento della curva polinomiale. Dammi dati casuali e probabilmente posso ottenere un ottimo inserendo un polinomio di 200 gradi. Sui nuovi dati, tuttavia, il polinomio stimato non funzionerebbe a causa del sovradimensionamento. Ancora una volta, R 2 elevato per il modello stimato ma modello stimato è inutile.R2R2

  5. Il punto (3-4) è il motivo per cui abbiamo aggiustato , che prevede una penalità per l'aggiunta di più regressori, ma R 2 aggiustato in genere può ancora essere sottovalutato da un eccesso di dati. Ha anche la caratteristica meravigliosamente assurda che può diventare negativo.R2R2

Potrei anche fornire esempi in cui basso va bene (ad esempio stimando i beta nei modelli di valutazione degli attivi) ma questo post è già diventato piuttosto lungo. Per riassumere, la domanda generale dovrebbe essere qualcosa del tipo "Conoscendo ciò che so del problema e delle statistiche, questo modello mi aiuta a capire / spiegare i dati?" R 2 può essere uno strumento per aiutare a rispondere a questa domanda, ma non è così semplice in quanto i modelli con R 2 più elevato sono sempre migliori.R2R2R2


+1 per molti buoni punti. Sto cercando di capire cosa dire del tono ....
rolando2

2
R2

2
R2

7

"Più alto è meglio" è una cattiva regola empirica per R-quadrato.

Don Morrison ha scritto alcuni articoli famosi alcuni anni fa dimostrando che i quadratini a R che si avvicinano allo zero potrebbero ancora essere attuabili e redditizi, a seconda del settore. Ad esempio, nel marketing diretto che prevede la risposta a un abbonamento a una rivista che spedisce a 10 milioni di famiglie, i quadratini a R nelle cifre singole basse possono produrre campagne redditizie (su base ROI) se la spedizione si basa sui primi 2 o 3 decili di risposta probabilità.

Un altro sociologo (il cui nome mi sfugge) ha segmentato i quadrati a R in base al tipo di dati rilevando che la ricerca del sondaggio wrt, i quadrati a R nell'intervallo 10-20% erano la norma, mentre per i dati aziendali, i quadrati a R nell'intervallo 40-60% dovevamo aspettarci. Hanno continuato osservando che i quadrati R dell'80-90% o più probabilmente violavano le ipotesi di regressione fondamentale. Tuttavia, questo autore non ha avuto esperienza con marketing mix, dati di serie temporali o modelli contenenti un set completo di funzionalità "causali" (ad esempio, il classico "Ps" di prezzo, promozione, luogo e prodotto) che può e produrrà R- quadrati vicini al 100%.

Detto questo, anche sensate, le regole empiriche di benchmarking come queste non sono estremamente utili quando si ha a che fare con l'analfabeta tecnicamente la cui prima domanda su un modello predittivo sarà sempre, "Qual è il R-quadrato?"


7

Le altre risposte offrono grandi spiegazioni teoriche dei molti modi in cui i valori del R-quadrato possono essere fissi / falsi / fuorvianti / ecc. Ecco una dimostrazione pratica che mi ha sempre attaccato, codificata in r:

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

Questo può fornire valori R al quadrato> 0,90. Aggiungi abbastanza regressori e anche valori casuali possono "prevedere" valori casuali.


1
Interessante: contrasto set.seed(1)e set.seed(2).
PatrickT,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.