Ho alcune domande sulle notazioni utilizzate nella Sezione 9.2 Mancanza di superiorità intrinseca di qualsiasi classificatore nella classificazione dei modelli di Duda, Hart e Stork . Prima di tutto lasciatemi citare alcuni testi pertinenti del libro:
- Per semplicità si consideri un problema di due categorie, in cui l'insieme di addestramento costituito da schemi e relative etichette di categoria per generato dalla funzione target sconosciuta da apprendere, , dove .
- Sia denotare l'insieme (discreto) di ipotesi o possibili insiemi di parametri da apprendere. Una particolare ipotesi potrebbe essere descritta da pesi quantizzati in una rete neurale, o da parametri 0 in un modello funzionale o da insiemi di decisioni in un albero, e così via.
- Inoltre, è la probabilità precedente che l'algoritmo produca ipotesi dopo l'allenamento; si noti che questa non è la probabilità che sia corretta.
- Avanti, indica la probabilità che l'algoritmo produrrà ipotesi quando allenato sui dati . Negli algoritmi di apprendimento deterministico come il vicino più vicino e gli alberi decisionali, sarà ovunque zero tranne che per una singola ipotesi . Per i metodi stocastici (come le reti neurali allenate da pesi iniziali casuali) o l'apprendimento stocastico di Boltzmann, può essere un'ampia distribuzione.
- Sia l'errore per una funzione zero-one o altra perdita.
L'errore di classificazione atteso fuori quando la vera funzione è e la probabilità per l' algoritmo di apprendimento candidato è è data dak P k ( h ( x ) | D ) E k ( E | F , n ) = ∑ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )
Teorema 9.1. (Nessun pranzo libero) Per due algoritmi di apprendimento e , vale quanto segue, indipendentemente dalla distribuzione di campionamento e dal numero di punti di addestramento:P 2 ( h | D ) P ( x ) n
Media uniforme di tutte le funzioni target ,
Per qualsiasi set di allenamento fisso , mediamente uniforme su ,
La parte 1 in realtà dice
La parte 2 in realtà dice
Le mie domande sono
- Nella formula di , ovvero posso sostituire con e spostarlo fuori dalla somma , perché è davvero una distribuzione di su dato per l' algoritmo di apprendimento stocastico ?
- Dato che l' algoritmo di apprendimento candidato è un metodo stocastico, perché nella formula di , non c'è somma su , cioè ?
In che modo e diversi l'uno dall'altro?
Fa : il tasso di errore off-formazione dato un training set ?
Ha significa che il tasso di errore off-formazione, media su tutta la formazione insieme dato una dimensione di formazione ? In caso affermativo, perché la parte 1 del teorema della NFL media sull'allenamento riprende scrivendo e perché nella formula per , non esiste una media su tutti i set di allenamento con una dimensione di allenamento ?
- Nella parte 1 del teorema della NFL, significa sommare tutti i set di allenamento con una dimensione di allenamento fissa ?
- Se si sommano ulteriormente tutti i possibili valori in della dimensione di allenamento nella parte 1, il risultato è ancora 0, giusto?
- Nella formula di , se cambio in , ovvero non è necessariamente limitato al di fuori del set di addestramento, entrambe le parti in Il teorema della NFL è ancora vero?
- Se il vero rapporto tra ed non vengono considerati una funzione deterministica come , ma invece distribuzioni condizionale una distribuzione congiunta o che è equivalente a conoscendo e (vedi anche la mia altra domanda ), allora posso cambiare
per essere (con lo strano indicato nelle parti 1 e 2). Le due parti nel teorema della NFL sono ancora vere?
Grazie e saluti!