Qual è la differenza tra apprendimento e inferenza?


20

I documenti di ricerca sull'apprendimento automatico spesso trattano l'apprendimento e l'inferenza come due compiti separati, ma non mi è chiaro quale sia la distinzione. In questo libro, ad esempio, usano le statistiche bayesiane per entrambi i tipi di attività, ma non forniscono una motivazione per quella distinzione. Ho diverse idee vaghe di cosa potrebbe trattarsi, ma vorrei vedere una definizione solida e forse anche confutazioni o estensioni delle mie idee:

  • La differenza tra inferire i valori delle variabili latenti per un determinato punto dati e apprendere un modello adatto per i dati.
  • La differenza tra estrarre le varianze (inferenza) e apprendere le invarianze in modo da poter estrarre le varianze (imparando le dinamiche dello spazio di input / processo / mondo).
  • L'analogia neuroscientifica potrebbe essere potenziamento / depressione a breve termine (tracce di memoria) rispetto a potenziamento / depressione a lungo termine.

4
Non sono sicuro che ciò aiuti, ma nelle statistiche una distinzione è se si desidera pensare all'apprendimento come inferenza (principalmente Bayes) o come stima (principalmente Frequentista). Per il primo, apprendere tutto - variabili latenti, parametri, previsioni, modelli - è un'inferenza (che restituisce una distribuzione). Per quest'ultimo alcuni problemi di apprendimento possono essere un'inferenza e altri un problema di stima (che restituisce una gamma e un intervallo di incertezza motivato teoricamente dal campionamento per esso).
conjugateprior

5
"L'apprendimento" è solo una metafora evocativa per il processo di formazione di un algoritmo di apprendimento automatico. Non credo che ci siano molte intuizioni da ottenere qui.
Sycorax dice di ripristinare Monica


1
@Winks Hai letto la questione legata a tutti ? Nessuna delle risposte rende esplicita la distinzione che sto chiedendo.
Lenar Hoyt,

1
@conjugateprior Nell'apprendimento automatico, nessuno direbbe che "apprendere tutto - variabili latenti, parametri, previsioni, modelli - è un'inferenza". L'apprendimento e l'inferenza sono considerati totalmente separati anche se entrambi possono produrre distribuzioni.
Neil G,

Risposte:


11

Concordo con la risposta di Neil G, ma forse questa frase alternativa aiuta anche:

Considera l'impostazione di un semplice modello di miscela gaussiana. Qui possiamo pensare ai parametri del modello come all'insieme dei componenti gaussiani del modello di miscela (ciascuno dei loro mezzi e varianze e il peso di ciascuno nella miscela).

Dato un insieme di parametri del modello, l' inferenza è il problema di identificare quale componente avrebbe probabilmente generato un singolo esempio dato, di solito sotto forma di una "responsabilità" per ciascun componente. Qui, le variabili latenti sono solo il singolo identificatore per il quale componente ha generato il vettore dato, e stiamo deducendo quale componente probabilmente sarebbe stato. (In questo caso, l'inferenza è semplice, anche se in modelli più complessi diventa piuttosto complicata.)

L'apprendimento è il processo di, dato un insieme di campioni dal modello, che identifica i parametri del modello (o una distribuzione sui parametri del modello) che si adattano meglio ai dati forniti: scegliendo i mezzi, le varianze e le ponderazioni dei gaussiani.

L'algoritmo di apprendimento Expectation-Maximization può essere considerato come inferenza performante per il set di addestramento, quindi apprendendo i migliori parametri dati quella inferenza, quindi ripetendo. L'inferenza viene spesso utilizzata nel processo di apprendimento in questo modo, ma è anche di interesse indipendente, ad esempio scegliere quale componente ha generato un dato punto dati in un modello di miscela gaussiana, per decidere lo stato nascosto più probabile in un modello Markov nascosto, per imputare i valori mancanti in un modello grafico più generale, ....


1
E un piccolo avvertimento che si può scegliere di scomporre le cose in apprendimento e inferenza in questo modo, ma si può anche scegliere di fare il tutto come inferenza: stats.stackexchange.com/questions/180582/…
conjugateprior

Perché così tante righe? Voglio vedere una risposta semplice che li differenzia in una o due frasi. Inoltre, non tutti hanno familiarità con GMM o EM.
nbro

9

Inferenza sta scegliendo una configurazione basata su un singolo input. L'apprendimento sta scegliendo parametri basati su alcuni esempi di addestramento.

Nel framework del modello basato sull'energia (un modo di guardare a quasi tutte le architetture di machine learning), l' inferenza sceglie una configurazione per minimizzare una funzione energetica mantenendo i parametri fissi; l'apprendimento sceglie i parametri per ridurre al minimo la funzione di perdita .

Come sottolinea il coniugato, altre persone usano una terminologia diversa per la stessa cosa. Per esempio Bishop, usa "inferenza" e "decisione" per indicare rispettivamente apprendimento e inferenza. Inferenza causale significa apprendimento. Qualunque termine tu decida, questi due concetti sono distinti.

L'analogia neurologica è uno schema di attivazione dei neuroni è una configurazione; un insieme di punti di forza del collegamento sono i parametri.


@mcb Non so ancora cosa intendi per "varianze". "Invarianze" non è nemmeno una parola nel dizionario. Sì, ci sono molti algoritmi di apprendimento che si basano su una configurazione inferita come EM descritta nella risposta di Dougal.
Neil G,

@mcb Non capisco neanche le tue domande; forse sarebbe utile specificare un modello di esempio ed essere specifico di quale distribuzione / varianze / invarianti (?) stai parlando.
Dougal,

Grazie per le tue risposte. Forse ho frainteso qualcosa.
Lenar Hoyt,

@NeilG Credo che questa terminologia sia utilizzata principalmente nel lavoro di visione ML in cui le decisioni di classificazione dovrebbero essere "invarianti" per la traduzione degli oggetti, rotazione, riscalamento ecc. Non riesco a trovare un buon riferimento breve, ma c'è questo: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
conjugateprior

@conjugateprior Avevo la sensazione che fosse quello a cui stava arrivando, ma volevo vedere se avrebbe chiarito la sua domanda.
Neil G,

4

Sembra la classica confusione del gergo interdisciplinare. L'OP sembra utilizzare una terminologia simile alle neuroscienze in cui i due termini in questione possono avere connotazioni diverse. Ma poiché Cross Validated si occupa generalmente di statistiche e apprendimento meccanico, proverò a rispondere alla domanda in base all'utilizzo comune di questi termini in quei campi.

Nelle statistiche classiche, l'inferenza è semplicemente l'atto di prendere ciò che sai di un campione e fare una dichiarazione matematica sulla popolazione da cui (si spera) rappresentativo. Dal manuale canonico di Casella & Berger (2002): "L'argomento della teoria della probabilità è il fondamento su cui sono costruite tutte le statistiche ... attraverso questi modelli, gli statistici sono in grado di trarre inferenze su popolazioni, inferenze basate sull'esame di una parte del tutto ". Quindi, nelle statistiche, l'inferenza è specificamente correlata ai valori di p, alle statistiche dei test e alle distribuzioni di campionamento, ecc.

Per quanto riguarda l'apprendimento, penso che questa tabella di All of Statistics (2003) di Wasserman possa essere utile:

inserisci qui la descrizione dell'immagine


Questo non è d'accordo con molti altri libri di testo, incluso il libro di Bishop citato nei commenti. La classificazione è un tipo di apprendimento supervisionato quando le variabili target sono categorie. La sola parola "stima" è vaga: di solito intendiamo "stima della densità" o "stima dei parametri" o "stima sequenziale" o "stima della massima verosimiglianza".
Neil G,

1
Inoltre, la rete di Bayes non è solo un grafico aciclico diretto! È una specie di dag i cui nodi rappresentano proposizioni e i cui bordi rappresentano dipendenze probabilistiche. Specifica le relazioni di indipendenza condizionale.
Neil G,

1
@NeilG Abbastanza. La traduzione della statistica più vicina sarebbe probabilmente "modello di equazione strutturale"
congiuntore

2
E in una quantità sconcertante di statistiche dovrebbero esserci due righe sui dati: CS: dati di allenamento, Statistiche: dati. CS: dati di test, statistiche: wut?
conjugateprior

Stat 101: wut = un altro campione (si spera casuale) della tua popolazione ...
Zoë Clark

-1

È strano che nessun altro lo abbia menzionato, ma puoi avere deduzioni solo nei casi in cui hai una distribuzione di probabilità. Qui per citare Wiki, che cita il dizionario di Oxford:

L'inferenza statistica è il processo di utilizzo dell'analisi dei dati per dedurre le proprietà di una distribuzione di probabilità sottostante (Oxford Dictionary of Statistics)

https://en.wikipedia.org/wiki/Statistical_inference

Nel caso di reti neurali tradizionali, k-NN o SVM vanigliate non hai densità di probabilità da stimare, né ipotesi su qualsiasi densità, quindi nessuna inferenza statistica lì. Solo formazione / apprendimento. Tuttavia, per la maggior parte (tutte?) Le procedure statistiche, è possibile utilizzare sia l'inferenza che l'apprendimento, poiché queste procedure possiedono alcuni presupposti sulla distribuzione della popolazione in questione.


Questo è sbagliato. Ad ogni modo, puoi interpretare le reti neurali come se producessero una distribuzione. Vedi, ad esempio, Amari 1998.
Neil G

Non è sbagliato o specificare. PUOI interpretare, ma in origine non esiste tale interpretazione.
SWIM S.

È sbagliato perché le persone usano il termine inferenza con modelli come gli autoincider.
Neil G

Quindi, è sbagliato perché alcuni gruppi di persone usano il termine in modo errato? O perché hanno qualche interpretazione probabilistica per i loro NN (non ho una profonda familiarità con gli autoencoder)? Ho logicamente giustificato il motivo per cui un termine è diverso dall'altro. Quindi, data la definizione sopra, vedo che coloro che usano il termine inferenza con NN, k-NN o SVM (se non con interpretazione probabilistica) stanno praticamente abusando della notazione.
SWIM S.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.