Il valore R-quadrato è appropriato per confrontare i modelli?

Sto cercando di identificare il modello migliore per prevedere i prezzi delle automobili, utilizzando i prezzi e le funzionalità disponibili sui siti di annunci classificati automobilistici.

Per questo ho usato un paio di modelli della libreria scikit-learn e modelli di reti neurali di pybrain e neurolab. L'approccio che ho usato finora è quello di eseguire una quantità fissa di dati attraverso alcuni modelli (algoritmi di machine learning) e confrontare lì i valori di $R^2$ che sono stati calcolati con il modulo metriche scikit-learn.

È $R^2$ un buon metodo per confrontare le prestazioni dei diversi modelli?
Sebbene abbia ottenuto risultati abbastanza accettabili per modelli come la rete elastica e le foreste casuali, ho ottenuto valori molto scarsi $R^2$ per i modelli di rete neurale, quindi $R^2$ un metodo appropriato per valutare le reti neurali (o metodi non lineari)?

— Manik
fonte

La risposta breve è no . Potrebbe aiutarti a leggere la mia risposta qui: valutazione del modello e confronto per la selezione del modello migliore , che è abbastanza strettamente correlato alla tua domanda. Una soluzione candidata è descritta qui . Per una comprensione più generale, potresti provare a leggere alcuni dei thread sul sito classificati sotto il tag di selezione del modello .

— gung - Ripristina Monica

@gung Grazie! posso chiedere quale sarebbe una misura adeguata di misura adatta per la regressione usando le reti neurali?

— Manik,

Penso che la parte cruciale da considerare nel rispondere alla tua domanda sia

Sto cercando di identificare il modello migliore per prevedere i prezzi delle automobili

perché questa affermazione implica qualcosa sul perché si desidera utilizzare il modello. La scelta e la valutazione del modello dovrebbero basarsi su ciò che si desidera ottenere con i valori adattati.

In primo luogo, permette di ricapitolare ciò che fa $R^2$ : Si calcola una misura in scala in base alla funzione di perdita quadratica, e sono sicuro che sei già a conoscenza. Per vedere questo, definire residuo per la i-esima osservazione ed il corrispondente valore adattato . Usando la notazione conveniente , $e_i = y_i - \hat{y}_i$ $y_i$ $\hat{y}_i$ $SSR := \sum_{i=1}^Ne_i^2$ ,è semplicemente definito come. $SST:=\sum_{i=1}^N(y_i - \bar{y})^2$ $R^2$ $R^2 = 1 - SSR/SST$

In secondo luogo, vediamo cosa significa usare per la scelta / valutazione del modello $R^2$ . Supponiamo di scegliere tra una serie di previsioni che sono state generate utilizzando un modello , dove è la raccolta di modelli in esame (nel tuo esempio, questa raccolta conterrebbe reti neurali, foreste casuali, reti elastiche, ...). Dal momento che rimarrà costante tra tutti i modelli, se minimizzando potrete scegliere esattamente il modello che minimizza . In altre parole, sceglierai $\bar{Y}_M$ $M:M \in \mathcal{M}$ $\mathcal{M}$ $SST$ $R^2$ $SSR$ che produce la minima perdita di errore quadrata! $M \in \mathcal{M}$

Terzo, consideriamo perché $R^2$ o equivalentemente, potrebbe essere interessante per la scelta del modello . Tradizionalmente, la perdita quadrata ( norma ) viene utilizzata per tre motivi: (1) È calcolabile più facilmente delle deviazioni assolute minime (LAD, norma ) perché non compaiono valori assoluti nel calcolo, (2) punisce adattato valori che sono molto lontani dal valore reale molto più di LAD (in un quadrato piuttosto che in un senso assoluto) e quindi si assicurano che abbiamo valori anomali meno estremi, (3) è simmetrico : sovrastimare o sottovalutare il prezzo di un'auto è considerato ugualmente cattivo. $SSR$ $L^2$ $L^1$

Quarto (e ultimo), vediamo se questo è ciò di cui hai bisogno per le tue previsioni. Il punto che potrebbe essere di maggiore interesse qui è (3) dall'ultimo paragrafo. Supponiamo di voler assumere una posizione neutrale e di non essere né acquirente né venditore di un'auto. Quindi, può avere un senso: sei imparziale e desideri punire le deviazioni in eccesso o sottovalutazione esattamente in modo identico. Lo stesso vale se si desidera solo modellare la relazione tra le quantità senza voler prevedere valori non osservati. Supponiamo ora di lavorare per un consumatore / acquirente con un budget limitato: in questa situazione, potresti voler punire la sopravvalutazione del prezzo in senso quadratico, ma la sottovalutazione in senso , dove $R^2$ $L^p$ . Per , puniresti in un senso di deviazione assoluta. Questo può essere visto per riflettere gli obiettivi e le intenzioni dell'acquirente e distorcere la stima al ribasso potrebbe essere di interesse per lui / lei. Al contrario, potresti capovolgere il pensiero se dovessi modellare le previsioni di prezzo per il venditore. Inutile dire che qualsiasi norma potrebbe essere scelta per riflettere le preferenze del modellista / agente per il quale si modella. Puoi anche punire completamente al di fuori dellanorma e usare una perdita costante, esponenziale o di log da un lato e una perdita diversa dall'altro. $1 \leqslant p <2$ $p=1$ $L^p$ $L^p$

In sintesi, la scelta / valutazione del modello non può essere considerata indipendentemente dall'obiettivo del modello.

— Jeremias K
fonte