Quando non utilizzare la convalida incrociata?


10

Mentre leggo il sito, la maggior parte delle risposte suggerisce che la validazione incrociata dovrebbe essere fatta negli algoritmi di machine learning. Tuttavia, mentre stavo leggendo il libro "Capire l'apprendimento automatico", ho visto che esiste un esercizio che a volte è meglio non usare la convalida incrociata. Sono veramente confuso. Quando l'algoritmo di training su tutti i dati è meglio della validazione incrociata? Succede in set di dati reali?

Lasciate be k classi di ipotesi. Supponiamo che si è data m IID formazione esempi e volete imparare la classe H = k i = 1 H i . Considera due approcci alternativi:H1,...,HkmH=i=1kHi

  1. Impara sugli esempi m usando la regola ERMHm

  2. Dividi gli esempi m in un set di allenamento di dimensioni un set di validazione di dimensioni α m , per alcuni α ( 0 , 1 ) . Quindi, applicare l'approccio della selezione del modello utilizzando la convalida. Cioè, prima treno ogni classe H i sui ( 1 - α ) m esempi di addestramento utilizzando la regola ERM rispetto a H i , e lasciare che h 1 , ... , h k(1α)mαmα(0,1)Hi(1α)mHih^1,,h^ksiano le ipotesi risultanti. In secondo luogo, applicare la regola ERM rispetto alla classe infinita { h 1 , ... , h k } sulle α m esempi di validazione.h^1,,h^kαm

Descrivere gli scenari in cui il primo metodo è migliore del secondo e viceversa.

Immagine della domanda .


1
È un esercizio interessante, ma non sono d'accordo con l'etichetta. Penso che la validazione incrociata stia facendo il suo lavoro perfettamente qui. Come tangenziale, sarebbe davvero preferito se scrivessi l'esercizio e lo citassi, invece di allegare un'immagine. L'immagine è inaccessibile agli utenti ipovedenti.
Matthew Drury,

Un possibile svantaggio dell'utilizzo della convalida incrociata potrebbe essere un eccesso di adattamento (come nel caso di tralasciare una convalida incrociata). In sostanza, utilizzando tecniche di validazione incrociata, stiamo ottimizzando i parametri del modello sul set di dati di validazione (e non sul set di dati di test). Ma a volte questa messa a punto potrebbe andare un po 'troppo con conseguente possibile over-fit quando il classificatore viene testato sul set di test.
Upendra Pratap Singh,

1
Cosa significa "parità" qui?
Shadowtalker il

@shadowtalker Penso che significhi la somma modulo 2.
SMA.D,

Distingui tra convalida incrociata (ripetuta) e bootstrap?
usεr11852,

Risposte:


11

Messaggi da portare a casa:


Sfortunatamente, il testo che citi cambia due cose tra l'approccio 1 e 2:

  • L'approccio 2 esegue la validazione incrociata e la selezione / messa a punto / ottimizzazione del modello basata sui dati
  • L'approccio 1 non utilizza né la convalida incrociata né la selezione / ottimizzazione / ottimizzazione dei modelli basate sui dati.
  • L'approccio 3 convalida incrociata senza selezione / ottimizzazione / ottimizzazione dei modelli basati sui dati è perfettamente fattibile (e l'IMHO porterebbe a maggiori approfondimenti) nel contesto discusso qui
  • Approccio 4, nessuna convalida incrociata ma anche selezione / ottimizzazione / ottimizzazione del modello basata sui dati, ma più complessa da costruire.

IMHO, convalida incrociata e ottimizzazione basata sui dati sono due decisioni totalmente diverse (e in gran parte indipendenti) nell'impostazione della strategia di modellazione. L' unica connessione è che è possibile utilizzare le stime di convalida incrociata come target funzionale per l'ottimizzazione. Ma esistono altri funzionali target pronti per essere utilizzati e ci sono altri usi delle stime di convalida incrociata (soprattutto, è possibile utilizzarli per la verifica del modello, ovvero la convalida o il test)

Sfortunatamente, la terminologia dell'apprendimento automatico è attualmente un disordine che suggerisce qui false connessioni / cause / dipendenze.

  • Quando si cerca l'approccio 3 (convalida incrociata non per l'ottimizzazione ma per misurare le prestazioni del modello), la convalida incrociata "decisione" rispetto alla formazione sull'intero set di dati è una falsa dicotomia in questo contesto: quando si utilizza la convalida incrociata per misurare le prestazioni del classificatore, la cifra di merito della validazione incrociata viene utilizzata come stima per un modello formato sull'intero set di dati. Vale a dire l'approccio 3 include l'approccio 1.

  • pparametri / coefficienti del modello, ma ciò che l'ottimizzazione fa è stimare ulteriori parametri, i cosiddetti iperparametri. Se descrivi il processo di adattamento e ottimizzazione / ottimizzazione del modello come una ricerca dei parametri del modello, questa ottimizzazione dell'iperparametro significa che viene considerato uno spazio di ricerca molto più ampio. In altre parole, nell'approccio 1 (e 3) si restringe lo spazio di ricerca specificando tali iperparametri. Il tuo set di dati del mondo reale potrebbe essere abbastanza grande (contenere informazioni sufficienti) per consentire l'adattamento all'interno di quello spazio di ricerca limitato, ma non abbastanza grande da fissare tutti i parametri sufficientemente bene nello spazio di ricerca più ampio degli approcci 2 (e 4).

In effetti, nel mio campo molto spesso ho a che fare con set di dati troppo piccoli per consentire qualsiasi pensiero di ottimizzazione basata sui dati. Quindi cosa devo fare invece: utilizzo la mia conoscenza del dominio sui dati e sui processi di generazione dei dati per decidere quale modello si adatta bene alla natura fisica dei dati e dell'applicazione. E all'interno di questi, devo ancora limitare la complessità del mio modello.


Bella risposta. Speravo in qualche modo che avresti contribuito a questo thread. Ovvio +1
usεr11852

Grazie per la tua risposta utile e istruttiva. Quello che ho imparato dalla tua risposta è che potremmo scegliere l'approccio 2 quando disponiamo di piccoli set di dati non a causa della convalida ma a causa della selezione del modello. Ho ragione? L'uso della selezione del modello per insiemi di dati di piccole dimensioni porta in qualche modo a un insufficiente adattamento?
SMA.D,

Un'altra domanda è che nell'esercizio la dimensione della classe di ipotesi è la stessa sia per l'approccio 1 che per 2. Quanto è grande lo spazio di ricerca in quel caso per l'approccio 2?
SMA.D,

Bene, se c'è una scelta in 2 e non in 1, allora lo spazio di ricerca in 2 è più grande. Se lo spazio di ricerca in 2 non è più grande, allora non c'è davvero nulla da selezionare nell'approccio 2. La mia risposta e interpretazione di ciò che significa approccio 2 è innescata dal termine "selezione del modello usando la validazione". Se il contesto è ancora quello dell'esercizio "quando fallisce la convalida incrociata" prima di quello in questione qui, allora il libro potrebbe significare quello che ho chiamato l'approccio 3 sopra, cioè nessuna selezione del modello coinvolto. Ma in quel caso, la selezione del modello di parole in realtà non dovrebbe essere lì. Non posso giudicare quanto sia probabile questo ...
cbeleites insoddisfatto di SX il

... è come non so cosa dice il libro sulla selezione dei modelli, né quale sia la loro regola ERM (nel mio vocabolario, ERM si espande nella gestione del rischio aziendale ...). Tuttavia, la mia risposta vale indipendentemente dall'algoritmo di modellazione.
cbeleites insoddisfatto di SX il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.