Uso della teoria dell'informazione nella scienza dei dati applicata


9

Oggi mi sono imbattuto nel libro "Teoria dell'informazione: un'introduzione al tutorial" di James Stone e ho riflettuto per un momento o due sull'estensione dell'uso della teoria dell'informazione nella scienza dei dati applicati (se non ti senti a tuo agio con questo termine ancora un po 'confuso, pensa all'analisi dei dati , di cui la scienza dei dati IMHO è una versione glorificata). Sono ben consapevole del significativo uso di approcci , metodi e misure basati sulla teoria dell'informazione , in particolare l' entropia , sotto la copertura di varie tecniche statistiche e metodi di analisi dei dati.

Tuttavia, sono curioso dell'estensione / livello di conoscenza necessaria per uno scienziato sociale applicato per selezionare e applicare con successo quei concetti, misure e strumenti senza immergersi troppo in profondità nelle origini matematiche della teoria. Attendo con impazienza le vostre risposte, che potrebbero rispondere alla mia preoccupazione nel contesto del libro sopra citato (o di altri libri simili - sentitevi liberi di raccomandare) o in generale.

Gradirei anche alcune raccomandazioni per le fonti stampate o online che discutono della teoria dell'informazione e dei suoi concetti, approcci, metodi e misure nel contesto di (in confronto con) altri (più) approcci statistici tradizionali ( frequentista e bayesiano ).


2
Forse uno dei casi più noti e "applicati" di utilizzo dell'entropia si verifica quando si costruisce un albero. Una delle possibilità quando si divide l'algoritmo è di prendere la metrica di guadagno delle informazioni, che è la differenza tra entropia tra il livello superiore e il livello inferiore. Hai maggiori informazioni qui en.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro

@ D.Castro: Grazie per il tuo commento: sono a conoscenza di quel caso (e ho persino pubblicato una risposta su questo argomento esatto qui su Cross Validated o sul sito Data Science SE). Spero in una copertura / discussione più completa sull'argomento.
Aleksandr Blekh,

1
Per me, e in gran parte, si tratta della disciplina o del campo in cui si è formati, nonché del continente geografico. Dal mio punto di vista, fisici, matematici e professionisti del puro apprendimento automatico hanno molte più probabilità di ricevere un'esposizione approfondita alla teoria dell'informazione rispetto a, per esempio, statistici, economisti o analisti finanziari quantitativi. Inoltre, raddoppierei questo aspetto per le persone formate in Europa, vale a dire che gli europei hanno molta più probabilità di avere familiarità con l'IT. Tuttavia, l'avvento di modelli per l'apprendimento statistico sta cambiando quello per i data scientist negli Stati Uniti.
Mike Hunter,

@DJohnson Minutest di punti minuti, ma in Gran Bretagna e forse altrove IT == tecnologia dell'informazione. Altrimenti le tue impressioni assomigliano alle mie.
Nick Cox,

@NickCox Grazie, il tuo punto vale anche per gli Stati Uniti. Era un commento lunghissimo e, spazio permettendo, avrei scritto le parole o, meglio ancora, avrei introdotto il significato dell'acronimo in un punto precedente.
Mike Hunter,

Risposte:


4

Quindi la prima parte della domanda: i data scientist devono conoscere la teoria dell'informazione ? Pensavo che la risposta fosse no fino a poco tempo fa. Il motivo per cui ho cambiato idea è un componente cruciale: il rumore.

Molti modelli di apprendimento automatico (sia stocastici o meno) usano il rumore come parte del loro processo di codifica e trasformazione e in molti di questi modelli, è necessario dedurre la probabilità che il rumore abbia influito dopo aver decodificato l'output trasformato del modello. Penso che questa sia una parte fondamentale della teoria dell'informazione. Non solo, nell'apprendimento profondo, la divergenza di KL è una misura molto importante utilizzata che proviene anche dalla teoria dell'informazione.

Seconda parte della domanda: penso che la migliore fonte sia la teoria dell'informazione, inferenza e algoritmi di apprendimento di David MacKay . Comincia con la teoria dell'informazione e porta queste idee sia in inferenza che in reti neurali. Il Pdf è gratuito sul sito Web di Dave e le lezioni online sono fantastiche


3
È un libro eccellente. Chiunque sia interessato dovrebbe anche dare un'occhiata a en.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox,

Grazie per la tua risposta (+1 e potenziale accettazione, se non verranno visualizzate risposte più complete abbastanza presto). Apprezzamento speciale per i riferimenti. Sono sorpreso che tu abbia incontrato questa mia domanda quasi dimenticata, ma importante. :-)
Aleksandr Blekh,

Sì, è interessante. Non dovresti mai rinunciare a una domanda. Sono venuto da me dopo aver frequentato NIPS2016 e ho visto tutti quei discorsi sulla divergenza di KL e l'impatto del rumore sugli encoder.
Ambodi,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.