Le reti profonde possono essere addestrate per dimostrare i teoremi?


21

Supponiamo di avere un gran numero di prove nel calcolo del predicato del primo ordine. Supponiamo di avere anche gli assiomi, i corollari e i teoremi in quell'area della matematica anche in quella forma.

Considera ogni proposizione che è stata dimostrata e il corpo della teoria esistente che circonda quella proposizione specifica come esempio in un set di formazione e una buona prova nota per la proposizione come etichette associate. Ora, considera una rete artificiale profonda progettata specificamente per allenarsi su questo set di esempi e gli iperparametri impostati correttamente per farlo.

È possibile formare una rete artificiale profonda in modo tale che la presentazione di una nuova proposizione e la teoria esistente che la circonda presentata nel calcolo del predicato del primo ordine all'ingresso producano una prova all'output?

(Naturalmente, tali prove dovrebbero essere controllate manualmente.)

Se la proporzione di buone prove risultanti fosse sufficientemente elevata, potrebbe essere possibile creare un algoritmo genetico che proponga proposte alla rete profonda addestrata creando così prove?

È possibile?

Sarebbe possibile utilizzare questo tipo di progettazione di reti profonde per risolvere la congettura di Collatz o la congettura di Riemann o almeno riorganizzare i modelli in modo che i matematici siano più in grado di arrivare a una prova legittima?


5
Per quanto riesco a pensare a un "no clamoroso", gli NN sono buoni solo per approssimazioni di funzioni (molto buone) ... dire che un NN potrebbe fare quello che dici potrebbe fare presuppone che tutte le prove siano in qualche modo una funzione del problemi, varibales o altre cose ... e non so se qualcuno lo abbia detto
DuttaA

2
@DouglasDaseeco quasi tutte le prove sono fatte da matematici che immaginano qualcosa di astratto "in modo intuitivo" e poi lo danno alla vita .... mentre NN non è assolutamente in grado di farlo ... saranno solo in grado di dimostrare teoremi meschini o simili come trovare un caso eccezionale e quindi confutare o qualcosa del genere
DuttaA

1
@DuttaA, l'intuizione è molto più facile da insegnare a una rete neurale che alla logica. Le reti artificiali possono ordinare la posta indirizzata in modo ambiguo senza un motore di regole. Anche l'estrazione delle caratteristiche e la categorizzazione non supervisionata sono più vicine all'intuizione. Operazioni logiche come la moltiplicazione dei doppi sono insormontabili. Nella psicologia dello sviluppo, l'ottenimento intuitivo dell'attenzione dell'adulto avviene anni prima della concettualizzazione logica di AND e OR. I bambini non pensano causalmente: "Se gemo, la mamma si romperà e mi darà lo zucchero". Eseguono una funzione, non un piano. Nella mia risposta qui, i primi due elementi sono più difficili.
FauChristian,

2
Potrei suggerire di usare un NN per guidare un proveratore di teoremi tradizionale. Il normale teorema prover presenta le possibilità alla rete e la NN deve solo sceglierne una. In questo modo, non ha bisogno di imparare ciò che è e non è una logica valida, solo ciò che è interessante.
PyRulez,

Risposte:


6

I sistemi di produzione esistenti, sviluppati negli ultimi decenni, hanno codificato le regole di inferenza. Si basano sulla visione di Leibniz secondo cui tutta la logica classica può essere codificata in linguaggio simbolico ed elaborata meccanicamente. È stata sviluppata la logica del predicato del primo ordine ed è stata formalizzata una nomeclatura.

Sebbene la visione della dimostrazione automatica del teorema sia stata considerevolmente messa in discussione dai due teoremi di incompletezza di Gödel, il lavoro di completezza di Turing e lo sviluppo di un'architettura per realizzarlo praticamente da parte di von Neumann hanno ripristinato il lavoro verso l'automazione del processo meccanico dell'inferenza.

Il laboratorio di intelligenza artificiale del MIT, al tempo di Minsky, era vivo con tali sforzi, ma ciò che chiamarono esplosione combinatoria mostrò che non vi era una disponibilità di risorse di calcolo insufficiente per cercare lo spazio necessario per provare automaticamente teoremi arbitrari di complessità non banale. Grandi computer paralleli chiamati macchine di connessione e vari schemi, usando meta regole e approcci euristici, furono impiegati per superare il problema dell'esplosione combinatoria.

Furono introdotte reti artificiali e l'idea di poter competere con le macchine di produzione fu respinta dalla comunità LISP al momento della prima proposta. Tuttavia, nel contesto di un notevole successo nell'aumentare le risorse informatiche e dei recenti successi nell'apprendimento automatico, molti hanno iniziato a porre domande che erano state accantonate nel ventesimo secolo.

Sappiamo già che le reti artificiali possono apprendere funzioni logiche e algebriche arbitrarie, molte delle quali sono apprendibili dal PAC. 1 Dato il giusto ambiente di apprendimento, l'apprendimento dell'inferenza logica è chiaramente qualcosa che la corteccia cerebrale può fare nel suo attuale punto di evoluzione. Se le reti neurali raggiungeranno quel livello di cognizione è una domanda aperta che molti si pongono.

Che la ricerca di intelligenza artificiale e machine learning tradizionale non si concentri sull'acquisizione artificiale della rete di regole di inferenza logica, in gran parte perché programmarle in un sistema come DRools e altri sistemi di produzione comunemente usati sembra che l'approccio più razionale non significhi che lo sarà sempre. La domanda è se esiste un ritorno sugli investimenti sufficiente per fare ciò che può essere interessante ma sicuramente costoso, quando esistono già altre soluzioni.

Questa domanda è simile a un'altra domanda sullo scambio di stack di intelligenza artificiale su quanto sia buona l'intelligenza artificiale in matematica. Una delle risposte fornite è applicabile qui.

È importante non respingere alcun approccio in questo periodo di tempo, poiché il recente interesse per l'IA non ha solo riacceso la spesa pubblica, ma anche la spesa commerciale. Questa spesa aumenta il personale, la potenza di calcolo e l'incentivo a superare gli ostacoli che in precedenza potevano essere ritenuti insormontabili.


Le note

[1] PAC Learning è un framework per determinare la calcolabilità pratica degli algoritmi di apprendimento date le caratteristiche della classe di ipotesi che possono essere apprese usando il modello dato e l'accuratezza e la sicurezza attese del processo di apprendimento.


1

La tua idea può essere fattibile in generale, ma una rete neurale è probabilmente di alto livello sbagliato strumento di da utilizzare per esplorare questo problema.

Il punto di forza di una rete neurale è trovare rappresentazioni interne che consentano una soluzione altamente non lineare durante la mappatura degli input agli output. Quando formiamo una rete neurale, queste mappature vengono apprese statisticamente attraverso la ripetizione di esempi. Ciò tende a produrre modelli che si interpolano bene quando vengono dati dati simili al set di allenamento, ma che estrapolano male.

Anche i modelli di rete neurale mancano di contesto, quindi se si utilizza un modello generativo (ad esempio un RNN addestrato su sequenze che creano prove valide o interessanti), può facilmente produrre rifiuti statisticamente gradevoli ma privi di significato.

Ciò di cui avrai bisogno è un principio organizzativo che ti permetta di esplorare e confermare le prove in modo combinatorio. In effetti qualcosa come la tua idea è già stata fatta più di una volta, ma al momento non sono in grado di trovare un riferimento.

Niente di tutto ciò ti impedisce di utilizzare una rete neurale all'interno di un'intelligenza artificiale che cerca prove. Potrebbero esserci posti all'interno di un'intelligenza artificiale in cui è necessaria una buona euristica per guidare le ricerche, ad esempio, ad esempio nel contesto X è una sub-prova Y probabilmente interessante o pertinente. Valutare un punteggio di probabilità è qualcosa che una rete neurale può fare come parte di un più ampio schema di intelligenza artificiale. È simile a come le reti neurali si combinano con l'apprendimento per rinforzo.

In linea di principio, potrebbe essere possibile costruire la tua idea interamente dalle reti neurali. Dopotutto, ci sono buone ragioni per sospettare che il ragionamento umano funzioni in modo simile usando neuroni biologici (non è dimostrato che quelli artificiali possano corrispondere in entrambi i modi). Tuttavia, l'architettura di tale sistema è al di là di qualsiasi moderno progetto NN o impostazione di formazione. Sicuramente non si tratterà solo di aggiungere abbastanza livelli per poi inserire i dati.


Max non è alla ricerca di uno strumento. Ha iniziato con "Immagina di avere un elenco di tutti i problemi e le prove" nella domanda prima della modifica. "La modifica eccessiva ha nascosto quella prima parola. Sta pensando alla fattibilità, che è un'attività di ricerca legittima. La ricerca di solito inizia con immaginazione e fattibilità. Max non è l'unico che riconosce l'importanza della sua domanda. Ci sono centinaia che sanno che potrebbe esserci un modo per addestrare una rete per dimostrare ottimizzando l'applicazione delle regole di inferenza. Intuizione appresa. NietzscheanAI citato Hofstadter parla proprio di questa cosa.
FauChristian,

@FauChristian Ho letto "è possibile" come se sia realizzabile usando le tecniche attualmente conosciute e come si possa ricominciare tale ricerca usando gli approcci esistenti. Sono d'accordo che è possibile rispondere usando un angolo più teorico. Potrebbe essere un'interessante Meta domanda su come OP possa segnalare la differenza e come possiamo confermare l'intento
Neil Slater

1

Quello che sappiamo

Secondo una pagina della Banca mondiale , "Oggi ci sono circa 200 milioni di studenti dell'istruzione superiore nel mondo, rispetto agli 89 milioni del 1998". Almeno 1 su 100 ha, come requisito matematico, dovuto sviluppare una prova per un teorema e vivere almeno 40 anni dopo.

Sebbene ci siano almeno 20 milioni di reti neurali in grado di dimostrare un teorema, mancano di esempi che risponderebbero a questa domanda in senso affermativo. Queste reti neurali sono biologiche, non artificiali e hanno per lo più dimostrato teoremi precedentemente dimostrati, non la congettura di Collatz o la congettura di Riemann.

Ciò che alcuni credono

Coloro che credono che i dispositivi di Q-learning profondo e basati sull'attenzione saranno uniti da altri progetti di sistemi di apprendimento fino a quando le facoltà del cervello umano non saranno simulate e forse superate, includeranno probabilmente il teorema che si dimostra come una di quelle capacità umane. Questi probabilmente dichiarerebbero la logica e l'inferenza predicate come solo un'altra complessa funzione cognitiva che sarà raggiunta nei sistemi artificiali.

Coloro che credono che alcune capacità siano permeate nell'uomo e siano capacità riservate, possono dichiarare la logica e l'inferenza predicate riservate solo agli umani.

Stato attuale del progresso

Non ci sono articoli accademici che indicano la capacità di provare anche le prove più semplici usando la logica predicata e l'inferenza. È possibile che un governo o un'impresa privata abbia raggiunto un certo livello di successo nel farlo, ma tale non è stato reso noto.

L'idea che le reti artificiali, se sviluppate in modo apprezzabile, potessero superare i sistemi di produzione, i sistemi di intelligenza artificiale che si basano su produzioni o regole, nelle loro aree di massima efficacia è stata proposta all'inizio dello sviluppo dell'IA. Fu contestato e contestato ora, tuttavia gli argomenti non sono matematici, quindi non vi è alcuna forte indicazione che sia impossibile.

Certamente altri aspetti cognitivi del pensiero umano sono obiettivi importanti della ricerca sull'IA. Dialoghi, istruzione automatizzata, pianificazione, analisi strategica e pilotaggio dei veicoli sono tutti aspetti del pensiero superiore che richiedono più di DQN e che ora gli approcci di rete basati sull'attenzione possono offrire, ma gli sforzi di ricerca in queste aree sono apprezzabili e ben finanziati.

Approccio potenziale

La ricerca delle capacità cognitive logiche dovrebbe iniziare prove già note, molto più semplici delle congetture menzionate nella domanda. Ad esempio, è stato dimostrato che la somma di due numeri interi non negativi deve essere un altro numero intero non negativo. Nel calcolo del predicato, può essere rappresentato come una stringa di caratteri.

un'C,BC:S=un'+BSC

Dice che aeb essendo membri dell'insieme dei numeri di conteggio, che s, definito come la somma dei due, deve anche essere un membro dell'insieme di numeri di conteggio. La sua dimostrazione può anche essere rappresentata come una sequenza di stringhe di caratteri del calcolo del predicato del primo ordine.

Nessun piccolo progetto di ricerca

Un esempio del genere può sembrare semplice per qualcuno che ha seguito anni di corsi di matematica e ha costruito prove. Non è semplice per un bambino ed è molto difficile far convergere una rete artificiale in una funzione che applica tutte le regole di inferenza logica e incorpora meta-regole per arrivare a una prova di un sistema formale come l'aritmetica intera.

Le reti complete di Turing, come le RNN, avranno sicuramente dei vantaggi rispetto alle MLP (percetroni multistrato). Le reti basate sull'attenzione possono essere un'opzione di ricerca ragionevole. Ce ne sono altri indicati nei riferimenti seguenti.

Per la ricerca sarebbe necessaria una piattaforma informatica parallela, poiché il vettore di input può essere di centinaia di Kbyte. È difficile stimare le dimensioni degli esempi e quanti sarebbero necessari senza coinvolgere un anno o due nel processo di ricerca.

La definizione di contare i numeri, il segno più e il segno di uguale devono prima essere definiti e tali definizioni e un certo numero di assiomi, postulati, lemmi e corollari devono far parte dell'esempio di input nella forma formale come la proposta di essere dimostrato sopra, insieme a quella proposta.

E questo è il lavoro per preparare solo un esempio. Ne occorrerebbero migliaia per formare conoscenze intuitive sulle regole di inferenza in una rete profonda. (Ho scelto la parola INTUITIVO molto deliberatamente per ragioni teoriche che avrebbero richiesto almeno cento pagine per spiegare bene.)

Questo non è un piccolo progetto poiché il set di dati di esempio deve contenere almeno alcune migliaia di casi e ogni caso, sebbene possa condividere qualche teoria, deve essere impostato in modo che la proposta sia perfettamente formata e venga anche presentato il corpus necessario di teoria in perfetta forma all'ingresso per ogni iterazione dell'allenamento.

La mia ipotesi è che occorrerebbe un team di brillanti ricercatori con la comprensione adeguata di reti profonde, convergenza e calcolo del predicato di circa dieci anni per formare una rete per fornire prove valide in risposta a semplici proposte matematiche.

Ma non sarebbe un piccolo risultato

Questo potrebbe sembrare uno sforzo assurdo per alcuni, ma sarebbe la prima volta che qualcuno insegnasse a un computer come essere logici. La natura ha impiegato poco meno dell'età della terra per insegnare l'inferenza logica a un organismo, Socrate.

La gente parte dal presupposto che, poiché un computer è costituito da circuiti digitali che eseguono la logica in base alla progettazione, i computer sono logici. Chiunque si occupi di sviluppo software da decenni con la tendenza a pensare più a fondo dell'hacking per divertimento o denaro lo sa diversamente. Anche dopo un'attenta programmazione, i computer non simulano l'inferenza logica e non possono correggere il proprio comportamento programmato per qualsiasi bug arbitrario. In effetti, la maggior parte dello sviluppo software oggi consiste nella correzione di bug.

Simulare il pensiero logico sarebbe un passo importante verso la simulazione della cognizione e la più ampia gamma di capacità umane.


Riferimenti

Imparare a comporre reti neurali per rispondere alle domande Jacob Andreas, Marcus Rohrbach, Trevor Darrell e Dan Klein UC, Berkeley 2016 https://arxiv.org/pdf/1601.01705.pdf

Apprendimento di più livelli di rappresentazione Geoffrey E. Hinton Dipartimento di Informatica, Università di Toronto 2007 http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf

Neural Turing Machine (slideshow) Autore: Alex Graves, Greg Wayne, Ivo Danihelka Presentato da: Tinghui Wang (Steve) https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf

Neural Turing Machines (paper) Alex Graves, Greg Wayne, Ivo Danihelka https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf 2014

Apprendimento per rinforzo, Neural Turing Machines Wojciech Zaremba, Ilya Sutskever ICLR conference paper https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buff=buff 2016

Macchina di Turing neurale dinamica con schemi di indirizzamento continuo e discreto Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1 https://arxiv.org/pdf/1607.00036.pdf 2017

Un Fuzzy neurale autocostruito online, una rete di inferenza e le sue applicazioni Chia-Feng Juang e Chin-Teng Lin Transazioni IEEE su Fuzzy Systems, v6, n1 1998 https://ir.nctu.edu.tw/bitstream/11536/ 32809/1 / 000072774800002.pdf

Gated Graph Sequence Neural Networks Yujia Li e Richard Zemel ICLR conference paper 2016 https://arxiv.org/pdf/1511.05493.pdf

Costruire macchine che imparano e pensano come persone Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum e Samuel J. Gershman Behavioral and Brain Sciences 2016 https://arxiv.org/pdf/1604.00289.pdf

Reti neurali profonde pre-addestrate dipendenti dal contesto per il riconoscimento vocale di grandi vocaboli George E. Dahl, Dong Yu, Li Deng e Alex Acero Transazioni IEEE su elaborazione audio, vocale e linguistica 2012 https://s3.amazonaws.com/ academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Valida = 1.534.211,789 mila e firma = 33QcFP0JGFeA% 2FTsqjQZpXYrIGm8% 3D & risposta-Content-disposition = inline% 3B% 20filename% 3DContext-Dependent_Pre-Trained_Deep_Neura.pdf

Incorporamento di entità e relazioni per l'apprendimento e l'inferenza nelle basi di conoscenza Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 e Li Deng2 ICLR conference paper 2015 https://arxiv.org/pdf/1412.6575.pdf

Un algoritmo di apprendimento rapido per le reti di credenze profonde Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (comunicato da Yann Le Cun) Computazione neurale 18 2006 http://axon.cs.byu.edu/Dan/778/papers/Deep % 20Networks / hinton1 * .pdf

FINN: Un framework per un'inferenza di rete neurale binarizzata veloce e scalabile Yaman Umuroglu, et al 2016 https://arxiv.org/pdf/1612.07119.pdf

Dall'apprendimento automatico al ragionamento automatico Léon Bottou 08/02/2011 https://arxiv.org/pdf/1102.1808.pdf

Apprendimento profondo Yann LeCun1,2, Yoshua Bengio3 e Geoffrey Hinton4,5 Nature vol 521 2015 https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf


-1

È possibile, ma probabilmente non è una buona idea.

La dimostrazione logica è una delle aree più antiche dell'IA e ci sono tecniche appositamente costruite che non hanno bisogno di essere addestrate e che sono più affidabili di un approccio di rete neurale, poiché non si basano su ragionamenti statistici e invece usa l'amico del matematico: ragionamento deduttivo.

Il campo principale si chiama " Teorema automatizzato di prova " ed è abbastanza vecchio da essere un po 'calcolato come area di ricerca. Non ci sono molte innovazioni, ma alcune persone ci lavorano ancora.

L'idea di base è che la dimostrazione del teorema è solo una ricerca guidata classica o euristica: si parte da uno stato costituito da una serie di premesse accettate. Quindi applichi qualsiasi regola logica di inferenza valida per generare nuove premesse che devono anche essere vere, ampliando l'insieme di conoscenze che hai. Alla fine, puoi dimostrare una premessa desiderata, sia attraverso ricerche enumerative come ampie ricerche prima o approfondimento iterativo , sia attraverso qualcosa come A * con un'euristica specifica del dominio. Molti solutori usano anche solo una regola logica ( unificazione ) perché è completa e riduce il fattore di ramificazione della ricerca.


La mancanza di persone che ci stanno ancora lavorando può essere la causa della mancanza di innovazione. Non dovremmo dissuadere Max così rapidamente, soprattutto dal momento che il teorema automatizzato che ha dimostrato il lavoro nei primi giorni di LISP non applicava la gamma più ampia delle attuali tecniche disponibili. Perché? Questo è ciò di cui ho parlato nell'altro commento. Le persone del sistema di produzione non interagivano molto con le persone perceptron. Ci sono stati insulti, ma le università coinvolte li hanno rimossi dalla vista pubblica.
FauChristian,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.