Lo stato dell'arte dell'apprendimento generale dai dati nel '69


16

Sto cercando di capire il contesto del famoso libro di Minsky e Papert "Perceptrons" del 1969, fondamentale per le reti neurali.

Per quanto ne so, non c'erano ancora altri algoritmi di apprendimento supervisionato generico ad eccezione di perceptron: gli alberi decisionali hanno iniziato a diventare effettivamente utili solo alla fine degli anni '70, le foreste casuali e le SVM sono degli anni '90. Sembra che il metodo jackknife fosse già noto, ma non la validazione k-cross (anni '70) o bootstrap (1979?).

Wikipedia afferma che i quadri statistici classici di Neyman-Pearson e Fisher erano ancora in disaccordo negli anni '50, nonostante i primi tentativi di descrivere una teoria ibrida fossero già negli anni '40.

Quindi la mia domanda: quali erano i metodi all'avanguardia per risolvere i problemi generali di previsione dai dati?


6
La regressione logistica ha iniziato a essere utilizzata com'è oggi alla fine degli anni '70, vedi Cramer, JS (2002). "Le origini della regressione logistica", p. 12, papers.tinbergen.nl/02119.pdf
Tim

La regressione lineare è probabilmente un "algoritmo di apprendimento supervisionato generico" che ebbe origine nei primi anni del 1800; la regressione proba, almeno in qualche modo, apparentemente ebbe origine negli anni '30 . Intendi qualcosa in particolare con "generico" qui?
Dougal,

@Dougal: appena "trovato applicabile a un gran numero di problemi in diversi campi", al contrario di "progettato per risolvere un problema specifico". Sto cercando di capire quali metodi sarebbero stati usati da uno statistico o uno scienziato di intelligenza artificiale negli anni '60 di fronte a un nuovo problema sconosciuto senza alcun lavoro precedente quando l'approccio più semplice (come, immagino, regressione lineare?) Non funziona e quindi la ricerca di strumenti più complessi è giustificata. Ad esempio, la foresta casuale è ora uno di tali algoritmi: funzionano ragionevolmente bene su un sacco di set di dati provenienti da vari campi.
liori,

Si certo. Vale forse la pena notare che la regressione probit è in realtà probabilmente un modello di classificazione per scopi generali migliore rispetto ai percetroni originali. Se fosse usato come tale al momento, non lo so. I perceptron erano considerati diversi all'epoca perché erano in bundle con un algoritmo di ottimizzazione simile a SGD che probabilmente li rendeva più scalabili per i computer dell'epoca che probit, sebbene ovviamente oggi ci rendiamo conto che quelle scelte sono indipendenti.
Dougal,

1
Per chiunque sia ancora interessato all'argomento: ho trovato uno studio interessante nel campo della sociologia della scienza sull'argomento delle controversie sui percettori negli anni '60: Olazaran, "Storia ufficiale della controversia sui percettori". Il testo non risponde alla domanda qui enunciata, ma fornisce il contesto sociologico per il libro di Minsky e Papert, uno che mi sembra ora più importante dell'attuale stato scientifico.
liori,

Risposte:


12

Ero curioso di questo, quindi ho scavato. Sono stato sorpreso di scoprire che versioni riconoscibili di molti algoritmi di classificazione comuni erano già disponibili nel 1969 o giù di lì. Link e citazioni sono riportati di seguito.

Vale la pena notare che la ricerca sull'intelligenza artificiale non è sempre stata così focalizzata sulla classificazione. C'era molto interesse nella pianificazione e nel ragionamento simbolico, che non sono più in voga, e i dati etichettati erano molto più difficili da trovare. Allora non tutti questi articoli potrebbero essere stati ampiamente disponibili: ad esempio, il lavoro di proto-SVM è stato per lo più pubblicato in russo. Pertanto, ciò potrebbe sopravvalutare quanto uno scienziato medio sapeva della classificazione nel 1969.


Analisi discriminante

In un articolo del 1936 sugli Annals of Eugenics , Fisher descrisse una procedura per trovare una funzione lineare che discrimina tra tre specie di fiori di iris, sulla base delle loro dimensioni petalo e sepal. Quel documento menziona che Fisher aveva già applicato una tecnica simile per predire il sesso delle mandibole umane (ossa della mascella) scavate in Egitto, in una collaborazione con E. S Martin e Karl Pearson ( jstor ), nonché in un progetto di misurazione cranica separato con una signorina Mildred Barnard (che non ho potuto rintracciare).

Regressione logistica

La stessa funzione logistica è nota dal XIX secolo, ma principalmente come modello per i processi di saturazione, come la crescita della popolazione o le reazioni biochimiche. Tim si collega all'articolo di JS Cramer sopra, che è una bella storia dei suoi primi giorni. Nel 1969, tuttavia, Cox aveva pubblicato la prima edizione di Analysis of Binary Data . Non sono riuscito a trovare l'originale, ma un'edizione successiva contiene un intero capitolo sull'uso della regressione logistica per eseguire la classificazione. Per esempio:

y=0,1X'yy

K

KK

Reti neurali

Rosenblatt pubblicò un rapporto tecnico che descriveva il percettrone nel 1957 e lo seguì con un libro , Principi di neurodinamica nel 1962. Versioni continue di backpropagation sono in circolazione dai primi anni '60, incluso il lavoro di Kelley , Bryson e Bryson & Ho (rivisto in 1975, ma l'originale è del 1969. Tuttavia, non è stato applicato alle reti neurali fino a poco tempo fa, e i metodi per l'addestramento di reti molto profonde sono molto più recenti. Questo articolo accademico sull'apprendimento profondo ha più informazioni.

Metodi statistici

Ho il sospetto che l'uso della regola di Bayes per la classificazione sia stato scoperto e riscoperto molte volte: è una conseguenza abbastanza naturale della regola stessa. La teoria del rilevamento del segnale ha sviluppato un quadro quantitativo per decidere se un determinato input fosse un "segnale" o rumore. Alcuni di questi sono usciti dalla ricerca radar dopo la seconda guerra mondiale, ma è stato rapidamente adattato per esperimenti percettivi (ad esempio, da Green e Swets ). Non so chi abbia scoperto che assumere l'indipendenza tra i predittori funziona bene, ma il lavoro dei primi anni '70 sembra aver sfruttato questa idea, come riassunto in questo articolo . Per inciso, quell'articolo sottolinea anche che Naive Bayes una volta era chiamata "idiota Bayes"!

Supportare macchine vettoriali

Nel 1962, Vapnik e Chervonenkis descrissero il "Generalized Portrait Algorithm" ( terribile scansione, scusate ), che sembra un caso speciale di una macchina vettoriale di supporto (o in realtà, una SVM di una classe). Chervonenkis ha scritto un articolo intitolato "Early History of Support Vector Machines" che descrive questo e il loro lavoro di follow-up in modo più dettagliato. Il trucco del kernel (kernel come prodotti interni) è stato descritto da Aizerman, Braverman e Rozonoer nel 1964. svms.org ha un po 'di più sulla storia delle macchine vettoriali di supporto qui .


2
anche l'analisi delle serie temporali stava risolvendo alcuni problemi interessanti. I filtri ARMA e Kalman hanno fatto un buon chilometraggio negli anni '50 e '60.
EngrStudent - Ripristina Monica il

1
Interessante! Non ne so quasi nulla né della sua storia, ma sarei felice di votare una risposta se ne scrivessi una!
Matt Krause,

3

DISCLAIMER : questa risposta è incompleta, ma non ho tempo per renderla attuale in questo momento. Spero di lavorarci su questa settimana.


Domanda:
quali erano i metodi all'avanguardia per risolvere i problemi generici della previsione dai dati intorno al 1969?

Nota: questo non ripeterà l'eccellente risposta di "Matt Krause".

"Stato dell'arte" significa "migliore e più moderno" ma non necessariamente ridotto alla pratica come norma industriale. Al contrario, la legge sui brevetti degli Stati Uniti cerca "non ovvio" come definito da "ordinaria abilità nell'arte". Lo "stato dell'arte" per il 1969 fu probabilmente messo in brevetto nel decennio successivo.

È estremamente probabile che gli approcci "migliori e più brillanti" del 1969 siano stati utilizzati o valutati per l'uso in ECHELON (1) (2) . Mostrerà anche in valutazione dell'altra superpotenza dell'epoca, abbastanza matematicamente capace, l'URSS. (3) Mi occorrono diversi anni per fabbricare un satellite, e quindi ci si aspetterebbe anche che la tecnologia o il contenuto per i prossimi 5 anni di satelliti di comunicazione, telemetria o ricognizione mostrino lo stato dell'arte del 1969. Un esempio è il satellite meteorologico Meteor-2 è iniziato nel 1967 e con il progetto preliminare completato nel 1971. (4) L'ingegneria dei payload spettrometrici e attinometrici è informata dalle capacità di elaborazione dei dati del giorno e dal previsto "prossimo futuro" trattamento dei dati del tempo. L'elaborazione di questo tipo di dati è dove cercare le migliori pratiche del periodo.

Un'esame del "Journal of Optimization Theory and Applications" era operativo da diversi anni e ha i suoi contenuti accessibili. (5) Considera questo (6) valutazione degli stimatori ottimali e questa per gli stimatori ricorsivi. (7)

Il progetto SETI, iniziato negli anni '70, probabilmente utilizzava tecnologie e tecniche a budget ridotto che erano più vecchie per adattarsi alla tecnologia del tempo. L'esplorazione delle prime tecniche SETI può anche parlare di ciò che è stato considerato leader intorno al 1969. Un probabile candidato è il precursore di " valigia SETI ". "Suitcase SETI" utilizzava DSP per costruire ricevitori di autocorrelazione in canali a banda stretta ~ 130k. Le persone SETI stavano particolarmente cercando di eseguire analisi dello spettro. L'approccio è stato inizialmente utilizzato offline per elaborare i dati Aricebo. Successivamente è stato collegato al radiotelescopio Aricebo nel 1978 per i dati in tempo reale e il risultato è stato pubblicato lo stesso anno . L'attuale Suitecase-SETI è stato completato nel 1982. Qui (link) è uno schema a blocchi che mostra il processo.

L'approccio consisteva nell'utilizzare trasformazioni off-line di Longier di lunga durata (~ 64k campioni) per cercare segmenti di larghezza di banda tra cui la gestione del chirp e la compensazione in tempo reale per il turno Doppler. L'approccio è "non nuovo" e sono stati forniti riferimenti tra cui: Vedi, ad esempio,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

Gli strumenti utilizzati per la previsione dello stato successivo dato lo stato precedente che erano popolari all'epoca includono:

  • Filtri Kalman (e derivati) (Weiner, Bucy, non lineari ...)
  • Metodi di serie storiche (e derivati)
  • Metodi del dominio della frequenza (Fourier) inclusi filtraggio e amplificazione

Le "parole chiave" comuni (o parole d'ordine) includono "aggiunta, variazionale, gradiente, ottimale, secondo ordine e coniugato".

La premessa di un filtro Kalman è la miscelazione ottimale dei dati del mondo reale con un modello analitico e predittivo. Sono stati usati per far sì che cose come i missili colpissero un bersaglio mobile.


Grazie per averlo scritto: mi piace l'approccio guidato dall'applicazione che hai adottato!
Matt Krause,

@MattKrause - Ho ancora un po 'da mettere dentro. Ho pensato che l'approccio guidato dall'applicazione avrebbe servito l'archeologia della matematica in questo caso. Vedremo. Il lavoro mi fa venire voglia di costruire una "valigia-SETI" e usarla per guardarmi intorno nel mio ambiente umano per la vita, solo per avere un'idea di ciò che gli strumenti di 50 anni stavano facendo.
EngrStudent - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.