Usa il coefficiente di correlazione di Pearson come obiettivo di ottimizzazione nell'apprendimento automatico


12

Nell'apprendimento automatico (per problemi di regressione), vedo spesso errore medio quadrato (MSE) o errore assoluto medio (MAE) utilizzato come funzione di errore per minimizzare (oltre al termine di regolarizzazione). Mi chiedo se ci sono situazioni in cui l'uso del coefficiente di correlazione sarebbe più appropriato? se tale situazione esiste, quindi:

  1. In quali situazioni il coefficiente di correlazione è una metrica migliore rispetto a MSE / MAE?
  2. In queste situazioni, MSE / MAE è ancora una buona funzione di costo proxy da utilizzare?
  3. La massimizzazione del coefficiente di correlazione è direttamente possibile? È una funzione obiettiva stabile da usare?

Non sono riuscito a trovare casi in cui il coefficiente di correlazione viene utilizzato direttamente come funzione obiettivo nell'ottimizzazione. Gradirei se le persone potessero indicarmi informazioni in quest'area.

Risposte:


7

L'ottimizzazione della correlazione è utile quando l'output è molto rumoroso. In altre parole, la relazione tra input e output è molto debole. In tal caso, la riduzione al minimo dell'MSE tenderà a rendere l'output vicino allo zero, in modo che l'errore di previsione sia uguale alla varianza dell'output di training.

L'uso diretto della correlazione come funzione obiettiva è possibile per l'approccio della discesa gradiente (è sufficiente modificarlo per ridurre al minimo la correlazione negativa). Tuttavia, non so come ottimizzarlo con l'approccio SGD, perché la funzione di costo e il gradiente comportano risultati di tutti i campioni di addestramento.

Un altro modo per massimizzare la correlazione è ridurre al minimo MSE vincolando la varianza dell'output in modo che sia uguale alla varianza dell'output di training. Tuttavia, il vincolo coinvolge anche tutti gli output, quindi non c'è modo (secondo me) di sfruttare l'ottimizzatore SGD.

EDIT: Nel caso in cui lo strato superiore della rete neurale sia uno strato di uscita lineare, possiamo ridurre al minimo MSE e quindi regolare i pesi e la distorsione nello strato lineare per massimizzare la correlazione. L'adeguamento può essere fatto in modo simile a CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ).


1

Usiamo la correlazione di Pearson nella nostra ricerca e funziona bene. Nel nostro caso è abbastanza stabile. Poiché si tratta di una misura invariante per traslazione e scala, è utile solo se si desidera prevedere la forma, non valori precisi. Quindi, è utile se non sai se il tuo obiettivo è nello spazio della soluzione del tuo modello e sei interessato solo alla forma. Al contrario, MSE riduce la distanza media tra la previsione e gli obiettivi, quindi cerca di adattare il più possibile i dati. Questo è probabilmente il motivo per cui MSE è più ampiamente utilizzato, perché di solito sei interessato a prevedere valori precisi. Se si minimizza il MSE, la correlazione aumenterà.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.