Chi ha inventato l'albero delle decisioni?


24

Sto cercando di rintracciare chi ha inventato la struttura e l'algoritmo dei dati dell'albero decisionale.

Nella voce di Wikipedia sull'apprendimento dell'albero decisionale si afferma che "ID3 e CART sono stati inventati indipendentemente nello stesso periodo (tra il 1970 e il 1980)". ID3 è stato presentato più tardi in:

  • Quinlan, JR 1986. Induzione di alberi decisionali. Mach. Imparare. 1, 1 (marzo 1986), 81-106

quindi non sono sicuro che l'affermazione sia vera.

Ho scoperto che usando i libri di Google un riferimento a un libro del 1959 Serie di decisioni statistiche e una raccolta di documenti di lavoro del 1958 . Il contesto non è chiaro e non sembrano presentare un algoritmo. Tuttavia, non definiscono la struttura dei dati e la trattano come è noto.

Usando Google Scholar ho trovato citazioni risalenti al 1853, ma si trattava di errori di analisi e non di citazioni reali da quella data.


9
Il grande riferimento su CART è Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)ma quello non era certo il primo. Wei-Yin Loh dell'Università del Wisconsin ha scritto sulla storia degli alberi delle decisioni. Ecco un documento e alcune diapositive sulla storia.
G5W,

2
Ottimo riferimento! Dice che il primo albero di regressione è stato pubblicato nel 1963 a Morgan, JN e Sonquist, JA (1963). Problemi nell'analisi dei dati dell'indagine e una proposta. Journal of American Statistical Association, 58: 415–434. L'articolo è su pdfs.semanticscholar.org/9577/… e la pagina 17 presenta un albero. Sembra ancora che la struttura dei dati sia precedente, anche molto prima del 1958.
DaL

@ G5W, perché non trasformarlo in una risposta?
gung - Ripristina Monica

7
Questa domanda mi sembra chiaramente in argomento. Sto votando per lasciare aperto.
gung - Ripristina Monica

Grande vantaggio. Ho provato a cercarlo su Google ma non sono sicuro di chi sia quello giusto. Potete fornire un riferimento?
DaL,

Risposte:


18

Buona domanda. @ G5W è sulla buona strada per fare riferimento al documento di Wei-Yin Loh. Il documento di Loh discute gli antecedenti statistici degli alberi delle decisioni e, correttamente, fa risalire il loro locus al documento di Fisher (1936) sull'analisi discriminante - essenzialmente la regressione che classifica più gruppi come variabile dipendente - e da lì, attraverso AID, THAID, CHAID e Modelli CART.

La risposta breve è che il primo articolo che sono stato in grado di trovare che sviluppa un approccio "albero decisionale" risale al 1959 e un ricercatore britannico, William Belson, in un documento intitolato Matching and Prediction on the Principle of Biological Classification , ( JRSS .., Serie C, Applied Statistics, Vol 8, No. 2, giugno 1959, pp 65-75), il cui estratto descrive il suo approccio come uno dei corrispondenti campioni di popolazione e lo sviluppo di criteri per farlo:

In questo articolo il dott. Belson descrive una tecnica per abbinare campioni di popolazione. Ciò dipende dalla combinazione di predittori sviluppati empiricamente per fornire il migliore composito predittivo o di corrispondenza disponibile. Il principio di base è abbastanza distinto da quello inerente al metodo di correlazione multipla.

La "lunga" risposta è che altri flussi di pensiero, anche precedenti, sembrano rilevanti qui. Ad esempio, i semplici breakout di coorte età-genere impiegati nelle tabelle attuariali della mortalità offrono un quadro per pensare a decisioni che risalgono a diversi secoli fa. Si potrebbe anche sostenere che gli sforzi risalenti ai babilonesi impiegarono equazioni quadratiche, che erano non lineari nelle variabili (non nei parametri, http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations. html ) hanno rilevanza, almeno nella misura in cui presagiscono modelli parametrici di crescita logistica (riconosco che questo è un trattocommento, continua a leggere per una motivazione più completa). Inoltre, i filosofi hanno da tempo riconosciuto e teorizzato l'esistenza di informazioni qualitative disposte gerarchicamente, ad esempio il libro di Aristotele sulle categorie . Il concetto e l'assunzione di una gerarchia è la chiave qui. Altre scoperte rilevanti, molto più tardi, si spinsero oltre i confini dello spazio euclideo 3-D nello sviluppo dell'infinito di David Hilbert, Hilbertspazio, combinatoria, scoperte in fisica relative allo spazio, distanza e tempo di Minkowski 4-D, la meccanica statistica alla base della teoria della relatività speciale di Einstein e innovazioni nella teoria della probabilità relative a modelli di catene, transizioni e processi di Markov. Il punto qui è che può esserci un ritardo significativo tra qualsiasi teoria e la sua applicazione - in questo caso, il ritardo tra le teorie sull'informazione qualitativa e gli sviluppi relativi alla loro valutazione empirica, previsione, classificazione e modellizzazione.

Una migliore ipotesi è che questi sviluppi possano essere associati alla storia della crescente sofisticazione degli statistici, soprattutto nel XX secolo, nello sviluppo di modelli che sfruttano tipi di scala diversi da quelli continui (ad es. Informazioni nominali o, più semplicemente, categoriche), contare i modelli di dati (poisson), tabelle di contingenza incrociate, statistiche non parametriche esenti da distribuzione, ridimensionamento multidimensionale (ad esempio, JG Carroll, tra gli altri), modelli con variabili dipendenti qualitative come la regressione logistica di due gruppi e analisi di corrispondenza (principalmente in Olanda e Francia negli anni '70 e '80).

Esiste un'ampia letteratura che discute e confronta la regressione logistica di due gruppi con l'analisi discriminante di due gruppi e, per caratteristiche completamente nominali, li trova fornendo soluzioni equivalenti (ad esempio, Analisi multivariata di Dillon e Goldstein , 1984).

L'articolo di JS Cramer sulla storia della regressione logistica ( The History of Logistic Regressione , http://papers.tinbergen.nl/02119.pdf ) lo descrive come originario dello sviluppo dell'univariato, della funzione logistica o della classica curva a forma di S :

La sopravvivenza del termine logistica e l'ampia applicazione del dispositivo sono state determinate in modo decisivo dalle storie personali e dalle azioni individuali di alcuni studiosi ...

I modelli deterministici della curva logistica sono nati nel 1825, quando Benjamin Gompertz ( https://en.wikipedia.org/wiki/Benjamin_Gompertz ) pubblicò un documento che sviluppava il primo modello logistico veramente non lineare (non lineare nei parametri e non solo le variabili come con i babilonesi) - il modello e la curva di Gompertz.

Suggerirei che un altro anello importante in questa catena che ha portato all'invenzione degli alberi delle decisioni è stato il lavoro del sociologo Paul Lazarsfeld sui modelli di strutture latenti. Il suo lavoro iniziò negli anni '30, continuò durante la seconda guerra mondiale con l'analisi dei contenuti dei giornali tedeschi per il nascente OSS (in seguito la CIA, come discusso nel libro Megatrends di John Naisbett ) e infine pubblicato nel 1950. Andersen lo descrive in questo modo ( Analisi della struttura latente: A Survey , Erling B. Andersen, Scandinavian Journal of Statistics , Vol. 9, No. 1, 1982, pp. 1-12):

Le basi della teoria classica dell'analisi della struttura latente furono sviluppate da Paul Lazarsfeld nel 1950 in uno studio sull'etnocentrismo dei soldati americani durante la Seconda Guerra Mondiale. Lazarsfeld era principalmente interessato a sviluppare le basi concettuali di modelli di strutture latenti ... I metodi statistici sviluppati da Lazarsfeld erano, tuttavia, piuttosto primitivi ... Un collega iniziale di Lazarsfeld alla Columbia University fece un tentativo iniziale di ricavare metodi di stima e procedure di prova efficienti , TW Anderson, che in un articolo ( Psychometrika , marzo 1954, Volume 19, Issue 1, pp 1–10, Sulla stima dei parametri nell'analisi della struttura latente), ha sviluppato un metodo di stima efficiente per i parametri del modello di classe latente ... Al fine di introdurre il quadro (dei modelli di classe latente), descriveremo brevemente i concetti di base ... e utilizzeremo un sistema notazionale sviluppato molto più tardi da Goodman (1974a) ... I dati sono forniti sotto forma di una tabella di contingenza multipla ...

C'è una utile distinzione che vale la pena fare qui, in quanto può essere correlata alla progressione da AID a CHAID (successivamente CART), tra modelli basati su tabelle di contingenza (tutte le variabili nel modello sono ridimensionate nominalmente) e modelli di classe latente più recenti (altro precisamente, modelli di miscele finite basati su "miscele" di scale e distribuzioni, ad esempio Kamakura e Russell, 1989, Un modello di scelta probabilistica per la segmentazione del mercato e la struttura elastica) nel modo in cui creano i residui del modello. Per i precedenti modelli di tabella di contingenza, i conteggi delle celle inerenti alla tabella con classificazione incrociata hanno costituito la base per le "repliche" e, quindi, l'eterogeneità dei residui del modello utilizzati nel partizionamento in classi. D'altra parte, i modelli di miscela più recenti si basano su misure ripetute su un singolo soggetto come base per la suddivisione dell'eterogeneità nei residui. Questa risposta non lo èsuggerendo una connessione diretta tra modelli di classe latenti e alberi decisionali. La rilevanza per AID e CHAID può essere riassunta nelle statistiche utilizzate per valutare i modelli, AID utilizza una distribuzione F continua mentre CHAID utilizza la distribuzione chi-quadrato, appropriata per le informazioni categoriche. Piuttosto nella loro analisi e modellizzazione delle tabelle di contingenza, le LCM costituiscono, a mio avviso, un pezzo importante nel puzzle o nella narrativa che porta allo sviluppo di alberi decisionali, insieme alle molte altre innovazioni già notate.

CHAID fu uno sviluppo successivo, proposto per la prima volta in una tesi di dottorato del 1980 sudafricana Gordon Kass, come indicato in questo articolo di Wiki su CHAID ( https://en.wikipedia.org/wiki/CHAID ). Naturalmente, il CART arrivò qualche anno dopo negli anni '80 con Breiman, et al's, ora famoso libro Classification and Regression Trees .

AID, CHAID e CART rappresentano tutte strutture ad albero disposte gerarchicamente come la rappresentazione ottimale della realtà. Si occupano solo di questo utilizzando algoritmi e metodi diversi. Per me, i prossimi passi di questa progressiva catena di innovazione sono l'emergere di teorie eterarchiche della struttura. Come definito in questo articolo Wiki, le eterarchie "sono un sistema di organizzazione in cui gli elementi dell'organizzazione non sono suddivisi (non gerarchici) o in cui possiedono il potenziale per essere classificati in diversi modi" ( https: //en.wikipedia .org / wiki / Heterarchy o per una prospettiva più profonda, più filosofica sull'eterarchia, vedi Kontopoulos, The Logics of Social Structure). Da un punto di vista empirico, l'analisi e la modellizzazione delle strutture di rete sono le più rappresentative di questo sviluppo storico nella comprensione della struttura (ad esempio, il libro di Freeman The Development of Social Network Analysis ). Mentre molti analisti di rete cercheranno di forzare una disposizione gerarchica sulla rete risultante, questa è più un'espressione di assunzioni radicate e inconsce che una dichiarazione sulla realtà empirica della struttura di rete multiplex in un mondo complesso.

Questa risposta suggerisce che l'arco dell'evoluzione che porta allo sviluppo di alberi decisionali ha creato nuove domande o insoddisfazione per i metodi "all'avanguardia" esistenti in ogni fase o fase del processo, richiedendo nuove soluzioni e nuovi modelli. In questo caso, si possono riscontrare insoddisfazioni nei limiti della modellizzazione di due gruppi (regressione logistica) e nel riconoscimento della necessità di estendere tale quadro a più di due gruppi. Insoddisfazioni per ipotesi non rappresentative di una distribuzione normale sottostante (analisi discriminante o AID) nonché confronto con la "libertà" relativa che si possono trovare nell'impiego di ipotesi e modelli non parametrici, senza distribuzione (ad esempio CHAID e CART).

Come suggerito, le origini degli alberi decisionali hanno quasi certamente una lunga storia che risale a secoli fa e che è geograficamente dispersa. Flussi multipli nella storia umana, nella scienza, nella filosofia e nel pensiero possono essere rintracciati nel delineare la narrazione che porta allo sviluppo dei molti sapori degli alberi delle decisioni esistenti oggi. Sarò il primo a riconoscere i limiti significativi del mio breve schizzo di questa storia.

/ ** Addendum ** /

  1. Questo articolo del New Scientist del 2014 è intitolato Perché amiamo organizzare le conoscenze sugli alberi? ( https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/ ), È una recensione del libro del guru di Manuel Lima, The Book of Alberi che ripercorrono il millenario uso degli alberi come visualizzazione e aiuto mnemonico per la conoscenza. Non sembra esserci dubbio, ma che i modelli e la grafica secolari ed empirici inerenti a metodi come AID, CHAID e CART rappresentano l'evoluzione continua di questa tradizione di classificazione originariamente religiosa.

  2. In questo video (pubblicato online da Salford Systems, implementatori del software CART), A Tribute to Leo Breiman , Breiman parla dello sviluppo del suo pensiero che ha portato alla metodologia CART. Tutto è iniziato con un muro intonacato con le sagome di diverse navi da guerra dell'epoca della seconda guerra mondiale.

https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323

  1. Nel leggere l'introduzione alla teoria dei grafici finiti e infiniti di Denis Konig del 1936 , ampiamente considerata come la prima base matematica rigorosa a un campo precedentemente visto come fonte di divertimento e puzzle per bambini, Tutte le note (p. 13) di quel capitolo 4 (a partire da p. 62) del libro di Konig è dedicato agli alberi nella teoria dei grafi. La spiegazione di Tutte della definizione di Konig di un albero è "dove un grafico" aciclico "è un grafico senza circuito, un albero è un grafico aciclico collegato finito ... in altre parole, in un albero c'è un solo e solo percorso da un dato il vertice ad un altro ... "Per me (e non sono né un teorico dei grafi né un matematico), ciò suggerisce che la teoria dei grafi e i suoi precursori nell'analisi di Sitinc o Veblen di Poincaré ' conferenze sulla topologia combinatoria, potrebbero aver fornito i primi antecedenti intellettuali e matematici per quello che in seguito divenne un argomento per gli statistici.

  2. Il primo albero della conoscenza è ampiamente attribuito al filosofo neoplatonico Porphyry che, intorno al 270 d.C., scrisse un'introduzione alla logica che utilizzava un albero metaforico per descrivere e organizzare la conoscenza ... http://www.historyofinformation.com/expanded.php? id = 3857

  3. Ho appena scoperto un riferimento ancora prima a un albero della conoscenza nel libro della Genesi nella Bibbia, discusso in questo articolo Wiki ... https://en.wikipedia.org/wiki/Tree_of_life_(biblical) . La Genesi risale probabilmente al 1.400 a.C. sulla base di questo riferimento ... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ Indipendentemente da ciò, il Libro della Genesi è arrivato molti secoli prima Porfido.


1
Che sia un meraviglioso "breve schizzo di questa storia". Pensavo che le radici dovessero essere più profonde di 50 anni, ma non pensavo che sarebbero arrivate ad Aristotele e ai babilonesi. Hai mostrato molto bene come i metodi si sono avvicinati a un albero decisionale. Mi manca ancora un punto di emergenza più esatto. Speravo di trovare un riferimento ad un vecchio libro in cui offuschi vedere un diagramma e dire: "beh, questo è un albero decisionale" ;-)
DaL

1
Non mi piace la nomenclatura che viene utilizzata nella domanda e in alcune delle risposte. CARRELLO è alberi di classificazione e regressione per un motivo. Un albero decisionale come indicato sopra può o meno implicare analisi statistiche e spesso si basa sull'euristica e non sui dati. La domanda originale avrebbe dovuto riguardare gli alberi di classificazione .
Frank Harrell,

16

Il grande riferimento su CART è:

Alberi di classificazione e regressione
Leo Breiman, Jerome Friedman, Charles J. Stone, RA Olshen (1984)

ma quello non era certo il primo lavoro sull'argomento.

Nel suo articolo del 1986 Induction of Decision Trees , lo stesso Quinlan identifica il Concept Learning System (CLS) di Hunt come un precursore di ID3. Risale al CLS nel 1963, ma fa riferimento

EB Hunt, J.Marin, PJ Stone,
Experiments in Induction
Academic Press, New York, 1966

Wei-Yin Loh dell'Università del Wisconsin ha scritto sulla storia degli alberi delle decisioni. C'è un documento

Cinquant'anni di alberi di classificazione e regressione Wei-Yin Loh International Statistical Review (2014), 82, 3, 329–348 doi: 10.1111 / insr.12016

C'è anche un mazzo Slide da un discorso che ha tenuto sull'argomento.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.