So che probabilmente è stato discusso da qualche altra parte, ma non sono stato in grado di trovare una risposta esplicita. Sto cercando di utilizzare la formula per calcolare fuori campione di un modello di regressione lineare, in cui è la somma dei residui quadrati e è la somma totale dei quadrati. Per il set di allenamento, è chiaro che
E il set di test? Dovrei continuare a usare per il campione , oppure usare invece ?
Ho scoperto che se uso , l' risultante può essere talvolta negativo. Ciò è coerente con la descrizione della funzione di sklearn , dove hanno usato (che è anche usato dalla funzione del loro modello lineare per testare i campioni). Dichiarano che "un modello costante che prevede sempre il valore atteso di y, ignorando le caratteristiche di input, otterrebbe un punteggio R ^ 2 di 0,0".r2_score()
score()
Tuttavia, in altri luoghi le persone hanno usato come qui e qui (la seconda risposta di dmi3kno). Quindi mi chiedevo quale fosse più sensato? Ogni commento sarà molto apprezzato!