Comprensione del teorema del pranzo libero nella Classificazione dei modelli di Duda et al


12

Ho alcune domande sulle notazioni utilizzate nella Sezione 9.2 Mancanza di superiorità intrinseca di qualsiasi classificatore nella classificazione dei modelli di Duda, Hart e Stork . Prima di tutto lasciatemi citare alcuni testi pertinenti del libro:

  • Per semplicità si consideri un problema di due categorie, in cui l'insieme di addestramento costituito da schemi e relative etichette di categoria per generato dalla funzione target sconosciuta da apprendere, , dove .Dxiyi=±1i=1,...,nF(x)yi=F(xi)
  • Sia denotare l'insieme (discreto) di ipotesi o possibili insiemi di parametri da apprendere. Una particolare ipotesi potrebbe essere descritta da pesi quantizzati in una rete neurale, o da parametri 0 in un modello funzionale o da insiemi di decisioni in un albero, e così via.Hh(x)H
  • Inoltre, è la probabilità precedente che l'algoritmo produca ipotesi dopo l'allenamento; si noti che questa non è la probabilità che sia corretta.P(h)hh
  • Avanti, indica la probabilità che l'algoritmo produrrà ipotesi quando allenato sui dati . Negli algoritmi di apprendimento deterministico come il vicino più vicino e gli alberi decisionali, sarà ovunque zero tranne che per una singola ipotesi . Per i metodi stocastici (come le reti neurali allenate da pesi iniziali casuali) o l'apprendimento stocastico di Boltzmann, può essere un'ampia distribuzione.P(h|D)hDP(h|D)hP(h|D)
  • Sia l'errore per una funzione zero-one o altra perdita.E

L'errore di classificazione atteso fuori quando la vera funzione è e la probabilità per l' algoritmo di apprendimento candidato è è data dak P k ( h ( x ) | D ) E k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )F(x)kPk(h(x)|D)

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Teorema 9.1. (Nessun pranzo libero) Per due algoritmi di apprendimento e , vale quanto segue, indipendentemente dalla distribuzione di campionamento e dal numero di punti di addestramento:P 2 ( h | D ) P ( x ) nP1(h|D)P2(h|D)P(x)n

  1. Media uniforme di tutte le funzioni target ,FE1(E|F,n)E2(E|F,n)=0

  2. Per qualsiasi set di allenamento fisso , mediamente uniforme su , DFE1(E|F,D)E2(E|F,D)=0

La parte 1 in realtà dice

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

La parte 2 in realtà dice

F[E1(E|F,D)E2(E|F,D)]=0

Le mie domande sono

  1. Nella formula di , ovvero posso sostituire con e spostarlo fuori dalla somma , perché è davvero una distribuzione di su dato per l' algoritmo di apprendimento stocastico ?Ek(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Dato che l' algoritmo di apprendimento candidato è un metodo stocastico, perché nella formula di , non c'è somma su , cioè ?kEk(E|F,n)hhH
  3. In che modo e diversi l'uno dall'altro?Ei(E|F,D)Ei(E|F,n)

    Fa : il tasso di errore off-formazione dato un training set ?Ei(E|F,D)D

    Ha significa che il tasso di errore off-formazione, media su tutta la formazione insieme dato una dimensione di formazione ? In caso affermativo, perché la parte 1 del teorema della NFL media sull'allenamento riprende scrivendo e perché nella formula per , non esiste una media su tutti i set di allenamento con una dimensione di allenamento ?Ei(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. Nella parte 1 del teorema della NFL, significa sommare tutti i set di allenamento con una dimensione di allenamento fissa ?Dn
  5. Se si sommano ulteriormente tutti i possibili valori in della dimensione di allenamento nella parte 1, il risultato è ancora 0, giusto?Nn
  6. Nella formula di , se cambio in , ovvero non è necessariamente limitato al di fuori del set di addestramento, entrambe le parti in Il teorema della NFL è ancora vero?Ek(E|F,n)xDxx
  7. Se il vero rapporto tra ed non vengono considerati una funzione deterministica come , ma invece distribuzioni condizionale una distribuzione congiunta o che è equivalente a conoscendo e (vedi anche la mia altra domanda ), allora posso cambiare per essere (con lo strano indicato nelle parti 1 e 2). Le due parti nel teorema della NFL sono ancora vere?xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x)Ek(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

Grazie e saluti!


È del Kronecker-delta di Dirac /? Inδ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Questo teorema di No Free Lunch è lo stesso del problema di Halting? Sono collegati?

Risposte:


6

Risponderò alle domande a cui penso di conoscere le risposte.

  1. Questa risposta è no perché stai scegliendo una che non faceva parte del set di adattamento e quindi dipende da .xDhx
  2. h viene valutato solo ai valori nel set di test per ottenere il tasso di errore previsto, quindi non viene valutato sull'intero set ma solo sul set discreto di 's nel set di test.xHx
  3. Ei(E|F,D) è l'atteso fuori training set tasso di errore data la funzione ed il training set . Ma Penso che sia diverso perché stai solo condizionando il numero di punti di allenamento e non i valori effettivi . Ma questo è sconcertante date le dichiarazioni successive.FDEi(E|F,n)nx
  4. D è l'insieme dei vettori di addestramento. Ci sono vettori di addestramento in . Così si stanno sommando nel corso degli fisse vettori di addestramento in . C'è solo un set .nDnDD
  5. Penso che la risposta a 5 sia no. La notazione sembra essere un po 'confusa.

Non posso commentare 6 e 7.


2
+1. Benvenuto nel sito, sono un grande fan delle tue recensioni su Amazon. Scusa la mia presunzione nel montaggio, la notazione matematica viene fatta principalmente mettendo $ 's su entrambi i lati di qualcosa. Se fai clic sul cerchio giallo-? in alto a destra durante la scrittura, vedrai un link per "aiuto avanzato" che fornirà maggiori informazioni; inoltre, puoi fare clic con il tasto destro del mouse su alcuni mathjax esistenti (come uno dei precedenti) e selezionare "Mostra Math As -> comandi TeX" per vedere come è stato fatto.
gung - Ripristina Monica

2
In altre parole, @gung sta dicendo: Questo sito supporta (quasi) esattamente nel modo in cui ti aspetteresti, incluso il display matematico. Benvenuti nel sito. LATEX
cardinale

@Michael Per favore, permettimi di aggiungere il mio benvenuto a questi altri: sono felice di vederti qui. (Michael ha dato contributi eccezionalmente ben informati sulle liste di discussione dell'American Statistical Association.)
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.