Statistiche per l'apprendimento automatico, documenti per iniziare?


10

Ho un background nella programmazione informatica e nella teoria dei numeri elementare, ma nessuna vera formazione statistica e recentemente ho "scoperto" che il fantastico mondo di un'intera gamma di tecniche è in realtà un mondo statistico. Sembra che le fattorizzazioni di matrici, il completamento di matrici, i tensori ad alta dimensione, gli incorporamenti, la stima della densità, l'inferenza bayesiana, le partizioni di Markov, il calcolo degli autovettori, il PageRank siano tutte tecniche altamente statistiche e che gli algoritmi di apprendimento automatico che usano tali cose, usano molte statistiche .

Il mio obiettivo è quello di essere in grado di leggere articoli che discutono di tali cose e implementare o creare gli algoritmi, comprendendo al contempo la notazione, le "prove" e gli argomenti statistici utilizzati. Immagino che la cosa più difficile sia seguire tutte le prove che coinvolgono le matrici.

Quali documenti di base possono iniziare? O un buon libro di testo con esercizi che vale la pena di lavorare?

Nello specifico, alcuni articoli che vorrei comprendere completamente sono:

  1. Esatto completamento della matrice tramite ottimizzazione convessa, Candes, Recht, 2008
  2. The Fast Cauchy Transform e Faster Robust Regressione lineare, Clarkson et al, 2013
  3. Proiezioni casuali per Support Vector Machines, Paul et al, 2013
  4. Stima della probabilità ad alta dimensione con modelli di densità profonda, Rippel, Adams, 2013
  5. Ottenere stime di minimizzazione degli errori e limiti di errore universali per il completamento della matrice di basso rango, Király, Theran, 2013

1
Hai già familiarità con le matrici, ad esempio attraverso un corso di algebra lineare applicata o fa parte di ciò che stai cercando di imparare? Direi che la prima metà dell'elenco che hai dato sono argomenti importanti nella statistica piuttosto che una tecnica altamente statistica (che mi sembra andare nella direzione opposta). Ci sono diverse domande qui sui libri consigliati per l'apprendimento automatico della macchina statistica. Ti suggerirei di fornire un esempio o due di articoli specifici che hai incontrato e che vorresti capire; ciò ti aiuterà a focalizzare meglio le risposte che ricevi.
cardinale il

2
Sì, ho familiarità con le matrici, attraverso l'algebra lineare e con i concetti di spazio vettoriale, base, norme, ma non capisco completamente cose come la fattorizzazione LU, anche se sono abbastanza chiaro sull'ortogonalizzazione di Gram-Schmidt e sull'algoritmo QR non ottimizzato, sebbene non del tutto chiaro sul perché funzionano. Inoltre non capisco come le persone possano derivare gli autovettori per una matrice casuale senza eseguire un algoritmo di autovettori su di esso.
Cris Stringfellow

Risposte:


2

Consiglierei il corso Andrew Ngs Machine Learning su Coursera, che offre una brillante copertura di tutte le basi. Se stai studiando qualcosa a che fare con i modelli grafici probabilistici, ovviamente Daphne Kollers potrebbe dare un'occhiata.

Questo è un tesoro per le risorse di studio autonomo http://ragle.sanukcode.net/articles/machine-learning-self-study-resources/ Le lezioni di Herb Grossman sono fantastiche.

Mi è stato anche consigliato questo libro https://www.openintro.org/stat/textbook.php poiché sto ancora imparando sempre me stesso e le statistiche non sono il mio background!

I miei due centesimi riguardano il lato matematico delle cose e dei documenti, anche se non sono troppo presi dalla matematica di fondo. Impara le basi e fai riferimento ai documenti su cui sono stati scritti quei documenti che hai citato e vedi che sono più facili (forse dovresti tornare indietro ad alcuni documenti per ottenere qualcosa che puoi capire - è quello che faccio io stesso) ce ne sono molti diversi elementi di matematica in ML ed è facile essere risucchiati in una tana di coniglio (di nuovo qualcosa che mi sono fatto più di una volta!).

Buona fortuna, è un campo davvero interessante!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.