Quali sono le applicazioni pratiche note e esistenti della teoria del caos nel data mining?


13

Mentre leggendo casualmente alcune opere di mercato di massa sulla teoria del caos negli ultimi anni, ho iniziato a chiedermi come possano essere applicati vari aspetti di esso al data mining e ai campi correlati, come reti neurali, riconoscimento dei modelli, gestione dell'incertezza, ecc. Fino ad oggi, I Ho incontrato così pochi esempi di tali applicazioni nella ricerca pubblicata che mi chiedo se a) siano stati effettivamente messi in pratica in esperimenti e progetti noti e pubblicati eb) in caso contrario, perché sono usati così poco in queste interrelazioni campi?

La maggior parte delle discussioni sulla teoria del caos che ho visto finora ruotano attorno ad applicazioni scientifiche che sono del tutto utili, ma hanno poco a che fare con il data mining e campi correlati come il riconoscimento di schemi; uno degli esempi archetipici è il problema dei tre corpi della fisica. Voglio rinunciare alla discussione sulle normali applicazioni scientifiche di questo tipo e limitare la questione esclusivamente a quelle applicazioni che sono ovviamente rilevanti per il data mining e i campi correlati, che sembrano essere pochi e lontani tra loro in letteratura. L'elenco delle potenziali applicazioni di seguito può essere utilizzato come punto di partenza per una ricerca di ricerche pubblicate, ma sono interessato solo a quelle applicazioni che sono state effettivamente messe in pratica, se presenti. Quello che sto cercando sono implementazioni note della teoria del caos per il data mining, in contraddizione con l'elenco delle potenziali applicazioni, che è molto più ampio. Ecco un piccolo esempio di idee originali per le applicazioni di data mining che mi sono venute in mente durante la lettura; forse nessuno di loro è pragmatico, forse alcuni vengono messi in pratica mentre parliamo, ma vanno in base a termini che non conosco ancora:

  1. Identificazione di strutture auto-simili nel riconoscimento di schemi, come ha fatto Mandelbrot in modo pratico nel caso di scoppi di errore nelle linee telefoniche analogiche qualche decennio fa.
  2. Incontrare la costante di Feigenbaum nei risultati di mining (forse in un modo simile a come i teorici delle stringhe furono sorpresi nel vedere le equazioni di Maxwell apparire in posti inaspettati nel corso della loro ricerca).
  3. Individuazione della profondità di bit ottimale per i pesi della rete neurale e vari test di estrazione. Mi sono chiesto a questo proposito a causa delle scale numericamente minuscole a cui entra in gioco la sensibilità alle condizioni iniziali, che sono parzialmente responsabili dell'imprevedibilità delle funzioni legate al caos.
  4. Usando la nozione di dimensioni frazionarie in altri modi non necessariamente legati ad affascinanti curiosità frattali, come lo sono le spugne Menger, le curve di Koch o i tappeti Sierpinski. Forse il concetto può essere applicato alle dimensioni dei modelli di mining in qualche modo benefico, trattandoli come frazionari?
  5. Derivare leggi di potere come quelle che entrano in gioco nei frattali.
  6. Poiché le funzioni riscontrate nei frattali sono non lineari, mi chiedo se vi sia qualche applicazione pratica alla regressione non lineare.
  7. La teoria del caos ha alcune relazioni tangenziali (e talvolta sopravvalutate) con l'entropia, quindi mi chiedo se c'è un modo per calcolare l'entropia di Shannon (o limiti su di essa e sui suoi parenti) dalle funzioni usate nella teoria del caos o viceversa.
  8. Identificazione del comportamento raddoppio del periodo nei dati.
  9. Individuare la struttura ottimale per una rete neurale selezionando in modo intelligente quelle che hanno più probabilità di "auto-organizzarsi" in modo utile.
  10. Anche il caos, i frattali ecc. Sono collegati tangenzialmente alla complessità computazionale, quindi mi chiedo se la complessità possa essere usata per identificare strutture caotiche, o viceversa.
  11. Ho sentito parlare per la prima volta dell'esponente di Lyapunov in termini di teoria del caos e da allora l'ho notato alcune volte nelle ricette per specifiche reti neurali e discussioni sull'entropia.

Probabilmente ci sono dozzine di altre relazioni che non ho elencato qui; tutto questo è venuto dalla cima della mia testa. Non sono strettamente interessato a risposte specifiche a queste particolari speculazioni, ma le sto semplicemente gettando là fuori come esempi del tipo di applicazioni che potrebbero esistere in natura. Mi piacerebbe vedere le risposte che hanno esempi di ricerche attuali e implementazioni esistenti di idee come questa, purché le applicazioni siano specificamente applicabili al data mining.

Probabilmente ci sono altre implementazioni esistenti di cui non sono a conoscenza, anche in aree con cui ho più familiarità (come la teoria dell'informazione, insiemi fuzzy e reti neurali) e altre in quelle in cui ho ancora meno competenza, come la regressione, quindi più input è benvenuto. Il mio scopo pratico qui è determinare se investire di più nell'apprendimento di particolari aspetti della teoria del caos, che metterò sul retro se non riuscissi a trovare qualche ovvia utilità.

Ho fatto una ricerca di CrossValidated, ma non ho visto nessun argomenti che affronta direttamente le applicazioni utilitaristici della teoria del caos al Data Mining, ecc Il più vicino ho potuto venire è stato il filo statistiche teoria del caos, di modellazione senza equazione e non parametrici , che si occupa con un sottoinsieme specifico.


I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
whuber

Risposte:


7

Il data mining (DM) come approccio pratico sembra essere quasi complementare agli approcci di modellazione matematica (MM) e persino contraddittorio con una teoria del caos (CT). Parlerò prima di DM e MM generale, poi mi concentrerò su CT.

Modellistica matematica

Nella modellistica economica la DM fino a poco tempo fa era considerata quasi un tabù, un trucco per cercare correlazioni invece di apprendere su causalità e relazioni, vedi questo post nel blog SAS. L'atteggiamento sta cambiando, ma ci sono molte insidie ​​legate a relazioni spurie , dragaggio di dati , p-hacking ecc.

In alcuni casi, DM sembra essere un approccio legittimo anche in campi con pratiche MM consolidate. Ad esempio, il DM può essere usato per cercare interazioni tra particelle in esperimenti fisici che generano molti dati, pensiamo agli smasher di particelle. In questo caso, i fisici possono avere un'idea dell'aspetto delle particelle e cercare gli schemi nei set di dati.

Teoria del caos

Il sistema caotico è probabilmente particolarmente resistente all'analisi con tecniche DM. Considera un metodo congruente lineare familiare ( LCG ) usato nei generatori di numeri psudo-casuali comuni . È essenzialmente un sistema caotico . Ecco perché è usato per "falsificare" numeri casuali. Un buon generatore sarà indistinguibile da una sequenza numerica casuale. Ciò significa che non sarai in grado di determinare se è casuale o meno utilizzando metodi statistici. Includerò anche il data mining qui. Prova a trovare un modello nella sequenza generata da RAND () con il data mining! Tuttavia, ancora una volta è una sequenza completamente deterministica come sai, e anche le sue equazioni sono estremamente semplici.

La teoria del caos non riguarda la ricerca casuale di schemi di somiglianza. La teoria del caos implica l'apprendimento di processi e relazioni dinamiche tali che i piccoli disturbi si amplificano nel sistema creando comportamenti instabili, mentre in qualche modo emergono schemi stabili. Tutta questa roba interessante accade a causa delle proprietà delle equazioni stesse. I ricercatori quindi studiano queste equazioni e i loro sistemi. Questo è molto diverso dalla mentalità del data mining applicato.

Ad esempio, puoi parlare di schemi di auto-somiglianza mentre studi i sistemi caotici e notare che anche i minatori di dati parlano di ricerca di schemi. Tuttavia, questi gestiscono il concetto di "modello" in modo molto diverso. Il sistema caotico genererebbe questi schemi dalle equazioni. Potrebbero provare a trovare il loro insieme di equazioni osservando i sistemi reali ecc., Ma a un certo punto hanno sempre a che fare con le equazioni. I minatori di dati verrebbero dall'altra parte e, non conoscendo o indovinando molto la struttura interna del sistema, proverebbero a cercare schemi. Non penso che questi due gruppi guardino mai gli stessi sistemi o set di dati reali.

Un altro esempio è la mappa logistica più semplice con cui Feigenbaum ha lavorato per creare il suo famoso periodo raddoppiando la biforcazione.

inserisci qui la descrizione dell'immagine

Xn+1=rXn(1-Xn)


(+1). Aggiungerò che quando è possibile individuare l'equazione che determina il comportamento di un sistema caotico, è possibile prevederlo completamente o avvicinarlo. Raramente possiamo ottenere un R-quadrato pari>> 5 nel data mining / modellazione predittiva.
rolando2,

+1 questo è sicuramente complementare alla risposta che sto preparando da un po 'di tempo, che posterò tra poche ore.
SQLServerSteve

4

La cosa più strana che ho scoperto leggendo la teoria del caos per rispondere a questa domanda è stata una sorprendente carenza di ricerche pubblicate in cui il data mining e i suoi parenti sfruttano la teoria del caos. Ciò è stato nonostante uno sforzo concertato per trovarli, consultando fonti come la teoria del caos applicato di AB Ҫambel: un paradigma per la complessità e Alligood, et al. Caos: un'introduzione ai sistemi dinamici (quest'ultimo è incredibilmente utile come un libro di questo argomento) e facendo irruzione nelle loro bibliografie. Dopotutto, dovevo solo presentare un singolo studio che potesse qualificarsi e ho dovuto estendere i limiti del "data mining" solo per includere questo caso limite: un team dell'Università del Texas che esegue ricerche sulle reazioni di Belousov-Zhabotinsky (BZ) (che erano già note per essere inclini all'aperiodicità) hanno scoperto accidentalmente discrepanze nell'acido malonico usato nei loro esperimenti a causa di schemi caotici, spingendoli a cercare un nuovo il fornitore. [1] Probabilmente ce ne sono altri - non sono uno specialista della teoria del caos e difficilmente posso dare una valutazione esaustiva della letteratura - ma la forte sproporzione con gli usi scientifici ordinari come il problema dei tre corpi della fisica non cambierebbe molto se li elencassimo tutti. In effetti, nel frattempo quando questa domanda è stata chiusa, Ho pensato di riscriverlo sotto il titolo "Perché ci sono così poche implementazioni della teoria del caos in ambito di data mining e campi correlati?" Ciò è incongruente con il sentimento mal definito ma diffuso che dovrebbe esserci una moltitudine di applicazioni nel data mining e in campi correlati, come reti neurali, riconoscimento dei modelli, gestione dell'incertezza, insiemi fuzzy, ecc .; dopo tutto, anche la teoria del caos è un argomento all'avanguardia con molte utili applicazioni. Ho dovuto riflettere a lungo sul punto esatto in cui si trovavano i confini tra questi campi per capire perché la mia ricerca fosse infruttuosa e la mia impressione sbagliata.

La risposta; tldr

La breve spiegazione di questo forte squilibrio nel numero di studi e deviazione dalle aspettative può essere attribuita al fatto che la teoria del caos e il data mining ecc. Rispondono a due classi di domande ordinatamente separate; la nitida dicotomia tra loro è evidente una volta sottolineata, ma così fondamentale da passare inosservata, proprio come guardare il proprio naso. Potrebbe esserci qualche giustificazione per la convinzione che la relativa novità della teoria del caos e campi come il data mining spieghino alcune carenze delle implementazioni, ma possiamo aspettarci che lo squilibrio relativo persista anche quando questi campi maturano perché affrontano semplicemente lati distinti di la stessa moneta. Quasi tutte le implementazioni fino ad oggi sono state studiate su funzioni conosciute con risultati ben definiti che hanno mostrato alcune sconcertanti aberrazioni caotiche, mentre il data mining e le singole tecniche come le reti neurali e gli alberi decisionali implicano tutti la determinazione di una funzione sconosciuta o mal definita. Anche campi correlati come il riconoscimento di schemi e insiemi fuzzy possono essere visti come l'organizzazione dei risultati di funzioni che spesso sono anche sconosciute o mal definite, quando neanche i mezzi di quell'organizzazione sono facilmente evidenti. Questo crea un abisso praticamente insormontabile che può essere attraversato solo in determinate rare circostanze, ma anche questi possono essere raggruppati sotto la rubrica di un singolo caso d'uso: prevenire le interferenze aperiodiche con gli algoritmi di data mining. Anche campi correlati come il riconoscimento di schemi e insiemi fuzzy possono essere visti come l'organizzazione dei risultati di funzioni che spesso sono anche sconosciute o mal definite, quando neanche i mezzi di quell'organizzazione sono facilmente evidenti. Questo crea un abisso praticamente insormontabile che può essere attraversato solo in determinate rare circostanze, ma anche questi possono essere raggruppati sotto la rubrica di un singolo caso d'uso: prevenire le interferenze aperiodiche con gli algoritmi di data mining. Anche campi correlati come il riconoscimento di schemi e insiemi fuzzy possono essere visti come l'organizzazione dei risultati di funzioni che spesso sono anche sconosciute o mal definite, quando neanche i mezzi di quell'organizzazione sono facilmente evidenti. Questo crea un abisso praticamente insormontabile che può essere attraversato solo in determinate rare circostanze, ma anche questi possono essere raggruppati sotto la rubrica di un singolo caso d'uso: prevenire le interferenze aperiodiche con gli algoritmi di data mining.

Incompatibilità con il flusso di lavoro di Chaos Science

Il tipico flusso di lavoro nella "scienza del caos" è quello di eseguire un'analisi computazionale degli output di una funzione nota, spesso a fianco di ausili visivi dello spazio delle fasi, come diagrammi di biforcazione, mappe di Hénon, sezioni di Poincaré, diagrammi di fase e traiettorie di fase. Il fatto che i ricercatori si affidino alla sperimentazione computazionale dimostra quanto siano difficili da trovare effetti caotici; non è qualcosa che si può normalmente determinare con carta e penna. Si verificano anche esclusivamente in funzioni non lineari. Questo flusso di lavoro non è fattibile a meno che non abbiamo una funzione nota con cui lavorare. Il data mining potrebbe produrre equazioni di regressione, funzioni fuzzy e simili, ma condividono tutte la stessa limitazione: sono solo approssimazioni generali, con una finestra di errore molto più ampia. Al contrario, le funzioni note soggette al caos sono relativamente rare, così come le gamme di input che producono modelli caotici, quindi è richiesto un alto grado di specificità anche per testare gli effetti caotici. Eventuali strani attrattori presenti nello spazio delle fasi di funzioni sconosciute si sposterebbero o svanirebbero del tutto man mano che le loro definizioni e input cambiassero, complicando notevolmente le procedure di rilevazione descritte da autori come Alligood, et al.

Il caos come contaminante nei risultati di data mining

In effetti, la relazione tra il data mining e i suoi parenti e la teoria del caos è praticamente contraddittoria. Questo è letteralmente vero se consideriamo la crittoanalisi in senso lato come una forma specifica di data mining, dato che ho incontrato almeno un documento di ricerca su come sfruttare il caos negli schemi di crittografia (al momento non riesco a trovare la citazione, ma posso cacciare giù su richiesta). Per un minatore di dati, la presenza del caos è normalmente una cosa negativa, dal momento che gli intervalli di valori apparentemente insensati che emette possono complicare notevolmente il già arduo processo di approssimazione di una funzione sconosciuta. L'uso più comune per il caos nel data mining e nei campi correlati è quello di escluderlo, il che non è un'impresa da poco. Se gli effetti caotici sono presenti ma non rilevati, i loro effetti su un'impresa di data mining potrebbero essere difficili da superare. Basti pensare alla facilità con cui una normale rete neurale o albero decisionale potrebbe sovrapporsi alle uscite apparentemente insensate di un attrattore caotico, o come improvvisi picchi nei valori di input potrebbero certamente confondere l'analisi di regressione e potrebbero essere attribuiti a campioni errati o altre fonti di errore. La rarità degli effetti caotici tra tutte le funzioni e le gamme di input significa che le indagini su di esse sarebbero fortemente depriorizzate dagli sperimentatori.

Metodi di rilevamento del caos nei risultati di data mining

Alcune misure associate alla teoria del caos sono utili per identificare gli effetti aperiodici, come l'entropia di Kolmogorov e il requisito che lo spazio delle fasi esibisca un esponente di Lyapunov positivo. Questi sono entrambi nella lista di controllo per il rilevamento del caos [2] fornita nella teoria del caos applicato di AB Ҫambel, ma la maggior parte non è utile per funzioni approssimate, come l'esponente di Lyapunov, che richiede funzioni definite con limiti noti. La procedura generale che delinea potrebbe tuttavia essere utile nelle situazioni di data mining; L'obiettivo di Ҫambel è in definitiva un programma di "controllo del caos", ovvero l'eliminazione degli effetti aperiodici interferenti. [3] Altri metodi come il calcolo del conteggio delle caselle e le dimensioni di correlazione per rilevare le dimensioni frazionarie che portano al caos potrebbero essere più pratici nelle applicazioni di data mining rispetto al Lyapunov e altri nella sua lista. Un altro segno rivelatore di effetti caotici è la presenza di schemi di raddoppio del periodo (o triplicanti e oltre) negli output delle funzioni, che spesso precede il comportamento aperiodico (cioè "caotico") nei diagrammi di fase.

Differenziare le applicazioni tangenziali

Questo caso d'uso primario deve essere differenziato da una classe separata di applicazioni che sono solo tangenzialmente legate alla teoria del caos. A un esame più attento, l'elenco delle "potenziali applicazioni" che ho fornito nella mia domanda consisteva in realtà quasi interamente di idee per sfruttare concetti da cui dipende la teoria del caos, ma che possono essere applicati indipendentemente in assenza di comportamento aperiodico (tranne il raddoppio del periodo). Di recente ho pensato a un nuovo utilizzo di nicchia potenitale, che ha generato un comportamento aperiodico per estrarre le reti neurali dai minimi locali, ma anche questo apparterrebbe all'elenco delle applicazioni tangenziali. Molti di loro sono stati scoperti o arricchiti a seguito della ricerca sulla scienza del caos, ma possono essere applicati ad altri campi. Queste "applicazioni tangenziali" hanno solo connessioni fuzzy tra loro ma formano una classe distinta, separato da un limite rigido dal caso d'uso principale della teoria del caos nel data mining; il primo fa leva su alcuni aspetti della teoria del caos senza i modelli aperiodici, mentre il secondo è dedicato esclusivamente all'esclusione del caos come fattore complicante nei risultati del data mining, forse con l'uso di prerequisiti come la positività dell'esponente di Lyapunov e il rilevamento del raddoppio del periodo . Se facciamo una distinzione tra la teoria del caos e altri concetti che utilizza correttamente, è facile vedere che le applicazioni della prima sono intrinsecamente limitate a funzioni conosciute nello studio scientifico ordinario. C'è davvero una buona ragione per essere entusiasti delle potenziali applicazioni di questi concetti secondari in assenza di caos, ma anche motivo di preoccuparsi degli effetti contaminanti di comportamenti aperiodici inattesi sulle attività di data mining quando è presente. Tali occasioni saranno rare, ma è probabile che questa rarità significhi che non verranno rilevate. Il metodo di elambel potrebbe essere utile per evitare tali problemi.

[1] pagg. 143-147, Alligood, Kathleen T .; Sauer, Tim D. e Yorke, James A., 2010, Chaos: An Introduction to Dynamical Systems, Springer: New York. [2] pp. 208-213, Ҫambel, AB, 1993, Teoria del caos applicato: un paradigma per la complessità, Academic Press, Inc .: Boston. [3] p. 215, Ҫambel.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.