Come funzionerà il principio del rasoio di Occam nell'apprendimento automatico


11

La seguente domanda visualizzata nell'immagine è stata posta durante uno degli esami di recente. Non sono sicuro di aver compreso correttamente il principio del rasoio di Occam o no. Secondo le distribuzioni e i confini delle decisioni indicati nella domanda e seguendo l'Occam's Razor, il limite delle decisioni B in entrambi i casi dovrebbe essere la risposta. Perché secondo Occam's Razor, scegli il classificatore più semplice che fa un lavoro decente piuttosto che quello complesso.

Qualcuno può testimoniare se la mia comprensione è corretta e la risposta scelta è appropriata o no? Per favore aiutatemi perché sono solo un principiante nell'apprendimento automatico

la domanda


2
3.328 "Se un segno non è necessario, allora è insignificante. Questo è il significato di Occam's Razor." Dal Tractatus Logico-Philosophicus di Wittgenstein
Jorge Barrios

Risposte:


13

Il principio del rasoio di Occam:

Avere due ipotesi (qui, confini di decisione) che hanno lo stesso rischio empirico (qui, errore di addestramento), una breve spiegazione (qui, un confine con meno parametri) tende ad essere più valida di una lunga spiegazione.

Nel tuo esempio, sia A che B hanno zero errori di allenamento, quindi si preferisce B (spiegazione più breve).

Cosa succede se l'errore di allenamento non è lo stesso?

Se il confine A ha avuto un errore di allenamento più piccolo di B, la selezione diventa complicata. Dobbiamo quantificare la "dimensione della spiegazione" allo stesso modo del "rischio empirico" e combinare i due in una funzione di punteggio, quindi procedere con il confronto tra A e B. Un esempio potrebbe essere l' Akaike Information Criterion (AIC) che combina il rischio empirico (misurato con negativo probabilità logaritmica) e dimensioni della spiegazione (misurate con il numero di parametri) in un punteggio.

Come nota a margine, AIC non può essere utilizzato per tutti i modelli, ci sono anche molte alternative a AIC.

Relazione con il set di convalida

In molti casi pratici, quando il modello progredisce verso una maggiore complessità (spiegazione più ampia) per raggiungere un errore di addestramento inferiore, AIC e simili possono essere sostituiti con un set di validazione (un set su cui il modello non è addestrato). Interrompiamo l'avanzamento quando l'errore di convalida (errore del modello nel set di convalida) inizia ad aumentare. In questo modo, troviamo un equilibrio tra errore di allenamento basso e spiegazione breve.


3

Occam Razor è solo un sinonimo del preside di parsimonia. (KISS, mantienilo semplice e stupido.) La maggior parte degli algos lavora in questo preside.

Nella domanda sopra si deve pensare nel progettare i semplici confini separabili,

come nella prima immagine, la risposta D1 è B. Poiché definisce la linea migliore che separa 2 campioni, poiché un è polinomiale e può finire in un eccesso di adattamento. (se avessi usato SVM quella linea sarebbe arrivata)

similmente nella figura 2 D2 la risposta è B.


2

Il rasoio di Occam nelle attività di adattamento dei dati:

  1. Prima prova l'equazione lineare
  2. Se (1) non aiuta molto - scegline uno non lineare con meno termini e / o gradi più piccoli di variabili.

D2

Bvince chiaramente, perché è un confine lineare che separa piacevolmente i dati. (Ciò che è "piacevolmente" non posso attualmente definire. Devi sviluppare questo sentimento con esperienza). Ail confine è altamente non lineare che sembra un'onda sinusoidale agitata.

D1

Tuttavia non sono sicuro di questo. Ail confine è come un cerchio ed Bè rigorosamente lineare. IMHO, per me - la linea di confine non è né un segmento di cerchio né un segmento di linea, - è una curva simile a una parabola:

inserisci qui la descrizione dell'immagine

Quindi opto per un C:-)


Non sono ancora sicuro del motivo per cui desideri una linea intermedia per D1. Occam's Razor afferma di utilizzare la soluzione semplice che funziona. In assenza di più dati, B è una divisione perfettamente valida che si adatta ai dati. Se avessimo ricevuto più dati che suggeriscono più di una curva al set di dati di B, allora potrei vedere il tuo argomento, ma richiedere C va contro il tuo punto (1), dal momento che è un limite lineare che funziona.
Delioth

Perché c'è molto spazio vuoto dalla Blinea verso il gruppo circolare di punti sinistro. Ciò significa che ogni nuovo punto casuale in arrivo ha una probabilità molto alta di essere assegnato al cluster circolare a sinistra e una probabilità molto piccola di essere assegnato al cluster a destra. Pertanto, la Blinea non è un limite ottimale in caso di nuovi punti casuali sul piano. E non puoi ignorare la casualità dei dati, perché di solito c'è sempre uno spostamento casuale dei punti
Agnius Vasiliauskas

0

Non sono sicuro di aver compreso correttamente il principio del rasoio di Occam o no.

Per prima cosa affrontiamo il rasoio di Occam:

Il rasoio di Occam [..] afferma che "le soluzioni più semplici hanno maggiori probabilità di essere corrette rispetto a quelle complesse". - Wiki

Quindi, rivolgiamo la tua risposta:

Perché secondo Occam's Razor, scegli il classificatore più semplice che fa un lavoro decente piuttosto che quello complesso.

Questo è corretto perché, nell'apprendimento automatico, l'eccessivo adattamento è un problema. Se si sceglie un modello più complesso, è più probabile classificare i dati del test e non il comportamento effettivo del problema. Ciò significa che, quando si utilizza il classificatore complesso per fare previsioni su nuovi dati, è più probabile che sia peggiore del semplice classificatore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.