Cosa stava succedendo prima dell'apprendimento PAC

9

Sto studiando l'apprendimento PAC (teoria dell'apprendimento computazionale) come un principiante senza alcuna conoscenza precedente di machine learning / AI. Sto studiando il modello principalmente da un punto di vista storico.

Per questo, le cose più importanti sono ovviamente i risultati basati sul modello. Ci sono abbastanza documenti là fuori che documentano questi risultati. Ma voglio anche scrivere qualcosa su ciò che stava succedendo prima dell'apprendimento del PAC, in modo da delineare il contesto storico fino a dove Valiant è arrivato con l'idea del modello PAC.

Nessun documento / sondaggio che ho trovato finora lo documenta, e come qualcuno senza una vera conoscenza dell'apprendimento automatico, è difficile scoprirlo. Pertanto sto ponendo questa domanda delicata qui, perché credo che ci siano abbastanza esperti che possono aiutarmi in questo. I riferimenti sono molto apprezzati.

Quando potrò ricercare e studiare ciò che stava accadendo prima del PAC, potrei ottenere un migliore apprezzamento del perché il mondo accademico è così entusiasta del modello PAC, che è anche qualcosa di interessante da documentare nel mio lavoro storico!

machine-learning

— Codd
fonte

4

Non tutto il mondo accademico è entusiasta del modello PAC. Ad alcune persone nell'apprendimento automatico non piace in realtà (specialmente le persone più applicate).

— Yuval Filmus,

8

I riferimenti sono molto apprezzati.

Un autore dovrebbe affrontare la questione del contesto e della pertinenza dei suoi risultati all'inizio della sua pubblicazione. Ho appena sfiorato l'introduzione di "L. Valiant. Una teoria dell'apprendimento. Comunicazioni dell'ACM, 27, 1984." di nuovo, e ho scoperto che Valiant ha davvero ben coperto la tua domanda.

Il documento originale di Valiant è sia liberamente disponibile che non troppo difficile da leggere. (Tranne la sezione 7, che dimostra solo che l'autore può anche affrontare problemi matematici impegnativi, ma non contribuisce molto al reale contenuto del documento.) Leggere almeno la sua introduzione sarà più gratificante che leggere la mia risposta troppo lunga a questo domanda, quindi suggerisco di provarlo davvero.

Il resto di questa risposta cerca di citare alcuni passaggi dell'introduzione che dovrebbero indicare se la lettura di questa introduzione potrebbe rispondere alla domanda sul contesto storico. Si noti tuttavia che un autore ha la naturale prerogativa di essere parziale rispetto a tali domande.

... un tale sistema sarebbe, almeno, un ottimo inizio. In primo luogo, quando si esaminano gli esempi più famosi di sistemi che incorporano conoscenze preprogrammate, vale a dire sistemi esperti come DENDRAL e MYCIN , essenzialmente non viene utilizzata alcuna notazione logica al di là del calcolo proposizionale.

Questa è un'informazione interessante per il contesto, perché il calcolo proposizionale è significativamente più debole del calcolo predicativo o dei vari sistemi di teoria dei tipi talvolta usati oggi. (Abbastanza strano però, Prolog (1972) e ML (1973) erano tra l'altro intesi come meta-linguaggi per "tali" sistemi esperti e sembrano andare oltre la semplice logica proposizionale per quanto posso vedere. Inoltre, il modello relazionale ( 1969) per la gestione del database si afferma che si basa sulla logica del predicato.)

Forse la principale scoperta tecnica contenuta nel documento è che con questa nozione probabilistica di apprendimento è possibile un apprendimento altamente convergente per intere classi di funzioni booleane. Questo sembra distinguere questo approccio da quelli più tradizionali in cui l'apprendimento è visto come un processo di "induzione" di alcune regole generali dalle informazioni che è insufficiente per poter fare una deduzione affidabile.

Sono pienamente d'accordo qui. È importante essere in grado di spiegare come la tua soluzione è in grado di risolvere un determinato problema e in che senso è una soluzione. Altrimenti, finisci con i teoremi del "pranzo non libero" che non ti consentono di distinguere un'implementazione errata di un'euristica dubbiosa da una corretta implementazione di un'euristica appropriata.

In sintesi, questo documento tenta di esplorare i limiti di ciò che è appreso come consentito dalla complessità algoritmica. I risultati sono distinguibili dal diverso corpus di precedenti lavori sull'apprendimento perché tentano di conciliare le tre proprietà ((1) - (3)) menzionate in precedenza. Il rigore più vicino al nostro approccio è la letteratura sull'inferenza induttiva [...]. Esiste un ampio corpus di lavori sul riconoscimento e la classificazione dei modelli, utilizzando strumenti statistici e di altro [...]. L'apprendimento, in vari sensi meno formali, è stato ampiamente studiato come un ramo dell'intelligenza artificiale.

Le proprietà ((1) - (3)) erano che (1) "le macchine possono dimostrare in modo dimostrabile intere classi di concetti caratterizzabili" che sono (2) "appropriate e non banali per la conoscenza generale" e (3) "il calcolo il processo richiede solo un numero fattibile (cioè polinomiale) di passi ".

— Thomas Klimpel
fonte

4

L'identificazione della lingua nel limite è il primo tentativo noto di catturare il concetto di apprendibilità. È stato introdotto da Gold nel 1967 ed è un modello per l'inferenza induttiva che riguarda le classi di apprendimento delle lingue.

— Codd
fonte