Algoritmo di apprendimento dell'ensemble all'avanguardia nelle attività di riconoscimento dei modelli?


14

La struttura di questa domanda è la seguente: inizialmente fornisco il concetto di apprendimento d' insieme , poi fornisco un elenco di compiti di riconoscimento dei modelli , quindi fornisco esempi di algoritmi di apprendimento degli ensemble e, infine, introduco la mia domanda. Coloro che non hanno bisogno di tutte le informazioni supplementari potrebbero semplicemente guardare i titoli e andare direttamente alla mia domanda.


Che cos'è l'apprendimento d'insieme?

Secondo l' articolo di Wikipedia :

In statistica e apprendimento automatico, i metodi di ensemble utilizzano algoritmi di apprendimento multipli per ottenere prestazioni predittive migliori di quelle che si potrebbero ottenere da uno qualsiasi degli algoritmi di apprendimento costituente. A differenza di un insieme statistico nella meccanica statistica, che di solito è infinito, un insieme di apprendimento automatico si riferisce solo a un insieme finito di modelli alternativi concreti, ma in genere consente l'esistenza di una struttura molto più flessibile tra quelle alternative.


Esempi di attività di riconoscimento dei modelli:


Esempi di algoritmi di apprendimento dell'ensemble:

I seguenti algoritmi di apprendimento dell'ensemble utilizzati per le attività di PR (secondo Wiki):

Algoritmi di apprendimento di ensemble (meta-algoritmi supervisionati per la combinazione di più algoritmi di apprendimento):

  • Boosting (unmeta-algoritmo diensemble di machine learningper ridurre principalmente ibias, e anche la varianza nell'apprendimentosupervisionatoe una famiglia di algoritmi di machine learning che convertono gli studenti deboli in studenti forti)

  • Aggregazione Bootstrap (" insaccamento ") (un meta-algoritmo di ensemble di apprendimento automatico progettato per migliorare la stabilità e l'accuratezza degli algoritmi di apprendimento automatico utilizzati nellaclassificazione statisticae nellaregressione).

  • Media dell'insieme (il processo di creazione di più modelli e la loro combinazione per produrre l'output desiderato, anziché creare un solo modello. Spesso un insieme di modelli si comporta meglio di qualsiasi singolo modello, perché i vari errori dei modelli "si estinguono". )

  • Miscela di esperti, miscela gerarchica di esperti

Diverse implementazioni

  • Insiemi di reti neurali (un insieme di modelli di reti neurali che prendono una decisione calcolando la media dei risultati dei singoli modelli).
  • Foresta casuale (un metodo di apprendimento dell'ensemble per la classificazione, la regressione e altre attività, che opera costruendo una moltitudine dialberi decisionalial momento dell'allenamento e producendo la classe che è lamodalitàdelle classi (classificazione) o la previsione media (regressione) dell'individuo alberi).
  • AdaBoost (l'output degli altri algoritmi di apprendimento ("studenti deboli") è combinato in una somma ponderata che rappresenta l'output finale del classificatore potenziato).

Inoltre:

  • Metodi che utilizzano una rete neurale per combinare classificatori diversi
  • Metodo delle aree di competenza

La mia domanda

Quale degli algoritmi di apprendimento dell'ensemble è considerato allo stato dell'arte al giorno d'oggi ed è effettivamente utilizzato nella pratica (per il rilevamento del volto, il riconoscimento delle targhe di immatricolazione dei veicoli, il riconoscimento ottico dei caratteri, ecc.) Da parte di imprese e organizzazioni? L'uso di algoritmi di apprendimento d'insieme dovrebbe aumentare l'accuratezza del riconoscimento e portare a una migliore efficienza computazionale. Ma le cose stanno così nella realtà?

Quale metodo di ensemble, potenzialmente, può mostrare una migliore accuratezza di classificazione e prestazioni nelle attività di riconoscimento del modello? Forse, alcuni dei metodi sono obsoleti ora o hanno dimostrato di essere inefficaci. È anche possibile che i metodi di ensemble tendano ora a non essere più utilizzati sulla base di alcuni nuovi algoritmi. Coloro che hanno esperienza nel settore o hanno conoscenze sufficienti in questo campo, potete aiutarmi a chiarire le questioni?


Quello che ho sentito di recente è che la gente ama XGBoost e ha mostrato prestazioni davvero impressionanti in diverse competizioni Kaggle.
Sangwoong Yoon,

La risposta è breve: quella che dà il miglior punteggio CV. Di solito si accumula
Alexey Grigorev il

Il successo e il fallimento di un modello di ensemble è una funzione dei modelli membri dell'ensemble e della natura dei dati. Ensemble funziona perché i modelli dei membri offrono un certo grado di diversità. La tua domanda è probabilmente senza risposta senza i dettagli di entrambi i modelli che metti nel tuo ensemble e del set di dati in questione.
orazioT

Risposte:


9

Gli algoritmi all'avanguardia possono differire da quelli utilizzati nella produzione nel settore. Inoltre, questi ultimi possono investire nella messa a punto di approcci più basilari (e spesso più interpretabili) per farli funzionare meglio di quanto farebbero gli accademici.

Esempio 1: secondo TechCrunch , Nuance inizierà a utilizzare "deep learning tech" nei suoi prodotti di riconoscimento vocale Dragon a settembre.

Esempio 2: Chiticariu, Laura, Yunyao Li e Frederick R. Reiss. "L'estrazione di informazioni basate su regole è morta! Lunga vita ai sistemi di estrazione di informazioni basati su regole !." In EMNLP, no. Ottobre, pp. 827-832. 2013. https://scholar.google.com/scholar?cluster=12856773132046965379&hl=it&as_sdt=0,22 ; http://www.aclweb.org/website/old_anthology/D/D13/D13-1079.pdf

inserisci qui la descrizione dell'immagine

Detto questo:

Al giorno d'oggi quale degli algoritmi di apprendimento dell'ensemble è considerato all'avanguardia

Uno dei sistemi all'avanguardia per la classificazione delle immagini ottiene un bel guadagno con l'ensemble (proprio come la maggior parte degli altri sistemi che conosco): He, Kaiming, Xiangyu Zhang, Shaoqing Ren e Jian Sun. "Apprendimento residuo profondo per il riconoscimento delle immagini." arXiv prestampa arXiv: 1512.03385 (2015). https://scholar.google.com/scholar?cluster=17704431389020559554&hl=en&as_sdt=0,22 ; https://arxiv.org/pdf/1512.03385v1.pdf

inserisci qui la descrizione dell'immagine


3

Immagino si possa dire che il deep learning è praticamente all'avanguardia nella maggior parte dei sottodomini della visione artificiale (classificazione, rilevamento, super risoluzione, rilevamento dei bordi, ...) ad eccezione di compiti molto specifici come SLAM dove l'apprendimento profondo non è ancora alla pari con i metodi esistenti.

Spesso per ottenere qualche percentuale in più per vincere la concorrenza viene utilizzata la media delle reti, ma le reti stanno diventando così buone che non ha più importanza.

In produzione è totalmente diverso. Le grandi aziende di solito fanno affidamento su vecchi algoritmi che si sono dimostrati efficaci e che gli esperti in atto hanno conoscenza e anni di pratica nel loro utilizzo.
Inoltre l'integrazione di un nuovo algoritmo nella catena di approvvigionamento richiede molto tempo. Penso che alcune aziende di fotocamere utilizzino ancora il rilevatore Viola Jones per il rilevamento dei volti e so per certo che SIFT viene utilizzato pesantemente in molte applicazioni nell'industria.

Sono anche ancora un po 'scettici nei confronti dei metodi di apprendimento profondo che sono considerati scatole nere pericolose.
Ma i risultati impressionanti di quegli algoritmi sono lenti a far cambiare idea alle persone.

Le start-up sono più disposte a utilizzare tali soluzioni in quanto devono disporre di soluzioni innovative per essere finanziate.

Direi che tra vent'anni la maggior parte dei prodotti basati sulla visione artificiale utilizzerà l'apprendimento profondo anche se nel mezzo si scoprirà qualcosa di più efficace.
Per aggiungere alla risposta di Franck il deep learning sta cambiando così rapidamente che ResNets of Kaiming non è più lo stato dell'arte Reti convoluzionali densamente connesse e reti Wide e Deep con riavvio SGD sono ora SOTA su EDIT CIFAR e SVHN e probabilmente anche Imagenet e anche questo potrebbe cambiare in pochi giorni con i risultati di ILSVRC 2016 il 16 settembre.

Se sei interessato a risultati più avanzati su MS-COCO, il set di dati di rilevamento più impegnativo esistente verrà rilasciato all'ECCV in ottobre.


1
In effetti, dopo un doppio controllo, gli articoli che ho citato non menzionano i loro risultati su Imagenet! Quindi è un mio errore! ma poiché sono di gran lunga superiori su CIFAR e SVHN, penso che debba essere lo stesso su Imagenet, ma non lo sapete mai. Immagino che non lo abbiano menzionato per aspettare i risultati di ILSVRC ma potrei sbagliarmi!
Jean,

1
@FranckDernoncourt questa frenesia dei risultati è molto eccitante, ma può anche fare molta pressione sulle persone che vogliono pubblicare in questo campo, il che può portare a errori come questo famigerato articolo SARM che l'autore ha ritirato oggi dal NIPS.
Jean,

Grazie, sì, l'ho visto davvero, ma non ho avuto la possibilità di dare un'occhiata a quel documento ... Sto avendo problemi a svuotare la mia lista di letture con tutti questi nuovi PDF ANN: /
Franck Dernoncourt

Questo incidente di ritiro SARM mi fa ripensare la crisi di riproducibilità nelle statistiche. Quanti dettagli di implementazione dovrebbero essere richiesti nel processo di revisione, quanto è troppo piccolo, ecc.
horaceT

2

Ci sono molti dubbi sulla tua domanda e di solito trovare il modello migliore implica testare la maggior parte di questi sui dati. Solo perché un modello in teoria potrebbe produrre risultati più accurati non significa che produrrà sempre un modello con l'errore più basso.

Detto questo ... Gli insiemi di reti neurali possono essere molto precisi, purché tu possa accettare la scatola nera. Variare sia il numero di nodi che il numero di livelli può coprire una grande varianza nei dati, con l'introduzione di questi numerosi fattori di modellazione potrebbe essere facile sovrautilizzare i dati.

Le foreste casuali hanno raramente prodotto i risultati più accurati, ma gli alberi potenziati possono modellare relazioni complesse come nelle attività di intelligenza artificiale di cui hai discusso senza molto rischio di adattamento eccessivo.

Si potrebbe pensare, beh, perché non riunire tutti questi modelli insieme, ma questo modello compromette i possibili punti di forza dei singoli modelli. Ancora una volta, ciò porterebbe probabilmente ad alcuni problemi di overfitting.

I modelli che sono computazionalmente efficienti sono una questione diversa e non vorrei iniziare con una rete neurale molto complicata. Usando una rete neurale come punto di riferimento, nella mia esperienza è stato più efficiente usando alberi potenziati.

Questo si basa sulla mia esperienza e su una ragionevole comprensione della teoria alla base di ciascuno dei tipi di modellazione discussi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.