Qual è l'idea "fondamentale" dell'apprendimento automatico per la stima dei parametri?


19

L'idea "fondamentale" delle statistiche per la stima dei parametri è la massima probabilità . Mi chiedo quale sia l'idea corrispondente nell'apprendimento automatico.

Qn 1. Sarebbe corretto affermare che l'idea "fondamentale" dell'apprendimento automatico per la stima dei parametri è: "Funzioni di perdita"

[Nota: la mia impressione è che gli algoritmi di apprendimento automatico spesso ottimizzano una funzione di perdita e quindi la domanda sopra.]

Qn 2: esiste qualche letteratura che tenta di colmare il divario tra statistica e apprendimento automatico?

[Nota: forse, collegando le funzioni di perdita alla massima probabilità. (ad es. OLS equivale alla massima probabilità di errori normalmente distribuiti, ecc.)]


3
Non vedo l'interesse di queste domande sul tentativo di colmare un divario fittizio. qual è lo scopo di tutto ciò? inoltre ci sono molte altre idee che sono fondamentali nella statistica ... e la funzione di perdita ha almeno 100 anni. puoi ridurre le statistiche in quel modo? forse la tua domanda riguarda il concetto fondamentale nella datamining / statistica / machine learning, comunque la chiami ... Quindi la domanda esiste già ed è troppo ampia stats.stackexchange.com/questions/372/… .
Robin Girard,

Bene, non so molto sull'apprendimento automatico o sulle sue connessioni alle statistiche. In ogni caso, guarda questa domanda: stats.stackexchange.com/questions/6/… che suggerisce che almeno gli approcci per rispondere alle stesse domande sono diversi. È "innaturale" chiedersi se esiste una sorta di legame tra loro? Sì, sono d'accordo che ci sono molte idee nelle statistiche. Ecco perché ho delle virgolette fondamentali e ho limitato l'ambito alla stima dei parametri di interesse.

Link @Srikant tra cosa? nota che mi piace molto cercare un collegamento tra oggetti ben definiti, lo trovo davvero naturale.
Robin Girard,

6
Come, probabilmente, uno studente di macchine, sono qui per dirti che massimizziamo il diavolo per probabilità. Tutto il tempo. Un sacco di documenti sull'apprendimento automatico iniziano con "hey guarda la mia probabilità, guarda come fattori, guardami massimizzare". Suggerirei che è pericoloso rivendicare una base fondamentale di entrambe le discipline in termini di tecniche di inferenza. Riguarda maggiormente la conferenza a cui vai!
Mike Dewar,

6
Non credo che i bayesiani sarebbero d'accordo con la massima probabilità che sia l'idea fondamentale della statistica.
Marc Claesen,

Risposte:


17

Se la statistica si basa sulla massimizzazione della probabilità, l'apprendimento automatico si basa sulla riduzione al minimo delle perdite. Dal momento che non si conosce la perdita che si dovrà sostenere su dati futuri, si minimizza un'approssimazione, cioè la perdita empirica.

Ad esempio, se si dispone di un'attività di previsione e vengono valutati in base al numero di classificazioni errate, è possibile addestrare i parametri in modo che il modello risultante produca il minor numero di classificazioni errate sui dati di training. "Numero di classificazioni errate" (ad es., Perdita 0-1) è una funzione di perdita grave su cui lavorare perché non è differenziabile, quindi la si approssima con un "surrogato" regolare. Ad esempio, la perdita di log è un limite superiore alla perdita di 0-1, quindi è possibile minimizzarla e ciò si rivelerà lo stesso della massimizzazione della probabilità condizionale dei dati. Con il modello parametrico questo approccio diventa equivalente alla regressione logistica.

In un'attività di modellazione strutturata e approssimazione di perdita di log di perdita 0-1, ottieni qualcosa di diverso dalla massima probabilità condizionale, massimizzerai invece il prodotto delle probabilità marginali (condizionate).

Per ottenere una migliore approssimazione della perdita, le persone hanno notato che il modello di addestramento per minimizzare la perdita e l'utilizzo di tale perdita come stima della perdita futura è una stima eccessivamente ottimistica. Quindi, per una minimizzazione più accurata (vera perdita futura), aggiungono un termine di correzione della distorsione alla perdita empirica e la minimizzano, ciò è noto come minimizzazione strutturata del rischio.

In pratica, capire il termine corretto per la correzione del bias può essere troppo difficile, quindi aggiungi un'espressione "nello spirito" del termine per la correzione del bias, ad esempio la somma dei quadrati dei parametri. Alla fine, quasi tutti gli approcci di classificazione supervisionata dell'apprendimento automatico parametrico finiscono per addestrare il modello per minimizzare quanto segue

iL(m(xi,w),yi)+P(w)

dove è il tuo modello parametrizzata vettore w , i è ripreso tutti datapoints { x i , y i } , L è un po 'computazionalmente bel approssimazione della vostra vera perdita e P ( w ) è qualche termine bias di correzione / regolarizzazionemwi{xi,yi}LP(w)

Ad esempio, se , y { - 1 , 1 } , un approccio tipico sarebbe quello di lasciare m ( x ) = segno ( w x ) , L ( m ( x ) , y ) = - log ( y × ( x w ) ) , P (x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) e scegli q per convalida incrociataP(w)=q×(ww)q


3
Mi piacerebbe vedere questa perdita minimizzare nel clustering, kNN o felci casuali ...

Bene, per una caratterizzazione della funzione di perdita del vicino più vicino k- mean
John L. Taylor

@Giovanni, questo sta mescolando obiettivi e ragioni. In larga misura puoi spiegare ogni algoritmo in termini di minimizzazione di qualcosa e chiamarlo "perdita". kNN non è stato inventato in questo modo: ragazzi, ho pensato a una perdita del genere, ottimizziamola e vediamo cosa accadrà !; piuttosto ragazzi, diciamo che la decisione è meno continua nello spazio delle caratteristiche, quindi se avremmo una buona misura di somiglianza ... e così via.

2
"Se la statistica si basa sulla massimizzazione della probabilità, l'apprendimento automatico si basa sulla riduzione al minimo delle perdite" Non sono d'accordo con la tua premessa - fortemente e nella sua interezza. Forse era vero il vero statistico nel 1920, ma certamente non lo è oggi.
JMS,

19

Darò una risposta dettagliata. Può fornire più citazioni su richiesta, anche se questo non è davvero controverso.

  • Le statistiche non riguardano solo l'ottimizzazione (log) della probabilità. Questo è un anatema per i bayesiani di principio che semplicemente aggiornano i loro posteriori o propagano le loro credenze attraverso un modello appropriato.
  • Un sacco di statistiche è sulla perdita di minimizzazione. E così è un sacco di Machine Learning. La minimizzazione della perdita empirica ha un significato diverso in ML. Per una visione chiara e narrativa, dai un'occhiata a "La natura dell'apprendimento statistico" di Vapnik
  • L'apprendimento automatico non riguarda solo la minimizzazione delle perdite. Primo, perché ci sono molti bayesiani in ML; secondo, perché un certo numero di applicazioni in ML hanno a che fare con l'apprendimento temporale e la DP approssimativa. Certo, esiste una funzione oggettiva, ma ha un significato molto diverso rispetto all'apprendimento "statistico".

Non penso che ci sia un divario tra i campi, solo molti approcci diversi, tutti sovrapposti in una certa misura. Non sento il bisogno di trasformarli in discipline sistematiche con differenze e somiglianze ben definite, e data la velocità con cui si evolvono, penso che sia comunque un'impresa condannata.


8

Non riesco a pubblicare un commento (il luogo appropriato per questo commento) in quanto non ho abbastanza reputazione, ma la risposta accettata come la migliore risposta dal proprietario della domanda manca il punto.

"Se la statistica si basa sulla massimizzazione della probabilità, l'apprendimento automatico si basa sulla riduzione al minimo delle perdite".

La probabilità è una funzione di perdita. Massimizzare la probabilità equivale a minimizzare una funzione di perdita: la devianza, che è solo -2 volte la funzione di verosimiglianza. Allo stesso modo, trovare una soluzione ai minimi quadrati significa minimizzare la funzione di perdita che descrive la somma residua dei quadrati.

Sia ML che stats utilizzano algoritmi per ottimizzare l'adattamento di alcune funzioni (in termini più ampi) ai dati. L'ottimizzazione comporta necessariamente la riduzione al minimo di alcune funzioni di perdita.


1
Un buon punto, le differenze principali sono ancora altrove; in primo luogo, le statistiche riguardano l'adattamento di un modello ai dati che si hanno, ML riguarda l'adattamento di un modello ai dati che si avranno; secondo, le statistiche ASSUMONO che un processo che si osserva è guidato completamente da un modello "nascosto" imbarazzantemente banale che vogliono scavare, mentre ML TRIES per rendere abbastanza complesso un modello indipendente dal problema si comporta come una realtà.

@mbq. È una caricatura piuttosto dura di statistiche. Ho lavorato in cinque dipartimenti di statistica dell'università e non credo di aver incontrato nessuno che pensasse a statistiche del genere.
Rob Hyndman,

1
@Rob Caricature? Penso che questo sia ciò che rende belle le statistiche! Assumi tutte quelle gaussiane e quelle linearità e funziona e c'è una ragione che si chiama espansione di Taylor. Il mondo è un inferno di un complesso, ma in ca. (che è spesso il 90% di complessità) imbarazzantemente banale. La ML (e le statistiche non parametriche) arriva in queste poche percentuali di situazioni in cui è necessario un approccio più sottile. Questo non è solo un pranzo gratuito - se vuoi teoremi, hai bisogno di ipotesi; se non vuoi assunzioni, hai bisogno di metodi approssimativi.

@mbq. Giusto. Devo aver frainteso il tuo commento.
Rob Hyndman,

4

C'è una risposta banale: non esiste una stima dei parametri nell'apprendimento automatico! Non assumiamo che i nostri modelli siano equivalenti ad alcuni modelli di sfondo nascosti; trattiamo sia la realtà che il modello come scatole nere e proviamo a scuotere la scatola del modello (treno nella terminologia ufficiale) in modo che il suo output sia simile a quello della scatola della realtà.

Il concetto non solo di verosimiglianza, ma dell'intera selezione del modello basata sui dati di addestramento viene sostituita ottimizzando l'accuratezza (qualunque sia la definizione; in linea di principio la bontà nell'uso desiderato) sui dati invisibili; ciò consente di ottimizzare sia la precisione che il richiamo in modo accoppiato. Ciò porta al concetto di capacità di generalizzazione, che si ottiene in modi diversi a seconda del tipo di discente.

La risposta alla domanda due dipende fortemente dalle definizioni; penso ancora che la statistica non parametrica sia qualcosa che collega i due.


Non sono sicuro che sia del tutto corretto. In che senso i metodi di apprendimento automatico funzionano senza la stima dei parametri (all'interno di una serie di modelli parametrici o privi di distribuzione)?
John L. Taylor,

1
Stai stimando / calcolando qualcosa (il termine esatto potrebbe essere diverso). Ad esempio, considera una rete neurale. Non stai calcolando i pesi per la rete quando stai cercando di prevedere qualcosa? Inoltre, quando dici che ti alleni per abbinare l'output alla realtà, sembra che tu stia parlando implicitamente di una sorta di funzione di perdita.

@John, @Srikant Gli studenti hanno parametri, ma questi non sono parametri in senso statistico. Considera la regressione lineare y = a x (senza termine libero per simp.). a è un parametro che si adatterà ai metodi statistici, alimentato dal presupposto che y = a x. L'apprendimento automatico proverà a produrre una x quando viene richiesto x entro l'intervallo del treno (questo ha senso, dal momento che non presuppone y = a x); per fare ciò può contenere centinaia di parametri.

3
[citazione necessaria]. In altre parole, una risposta intrigante, anche se non sembra (almeno) con molta letteratura ML.
gappy

1
Quello classico è "Statistical Modeling: The Two Cultures" di Breiman.

2

Non credo che ci sia un'idea fondamentale sulla stima dei parametri in Machine Learning. La folla ML massimizzerà felicemente la probabilità o il posteriore, purché gli algoritmi siano efficienti e prevedano "accuratamente". L'attenzione si concentra sul calcolo e i risultati delle statistiche sono ampiamente utilizzati.

Se stai cercando idee fondamentali in generale, quindi nella teoria dell'apprendimento computazionale, PAC è centrale; nella teoria dell'apprendimento statistico, la riduzione del rischio strutturale ; e ci sono altre aree (ad esempio, vedi il post di Prediction Science di John Langford).

Sulle statistiche ponte / ML, il divario sembra esagerato. Mi è piaciuta la risposta di Gappy alla domanda "Due culture".


La folla statistica fa clic in modo casuale in SPSS fino a quando non viene visualizzato il valore p desiderato ...

1

È possibile riscrivere un problema di massimizzazione della probabilità come problema di minimizzazione della perdita definendo la perdita come probabilità log negativa. Se la probabilità è un prodotto di probabilità indipendenti o densità di probabilità, la perdita sarà una somma di termini indipendenti, che possono essere calcolati in modo efficiente. Inoltre, se le variabili stocastiche sono normalmente distribuite, il corrispondente problema di minimizzazione delle perdite sarà un problema dei minimi quadrati.

Se è possibile creare un problema di minimizzazione della perdita riscrivendo una massimizzazione della probabilità, questo dovrebbe essere preferire la creazione di un problema di minimizzazione della perdita da zero, poiché provocherà un problema di minimizzazione della perdita che è (si spera) più fondata teoricamente e meno ad hoc. Ad esempio, i pesi, come nei minimi quadrati ponderati, per i quali di solito si devono indovinare i valori, emergeranno semplicemente dal processo di riscrittura del problema originale di massimizzazione della probabilità e hanno già (si spera) valori ottimali.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.