C'è qualche differenza tra supervisione distante, auto-allenamento, apprendimento auto-supervisionato e supervisione debole?


12

Da quello che ho letto:


Supervisione a distanza :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

Auto-allenamento :

inserisci qui la descrizione dell'immagine


Autoapprendimento ( Yates, Alexander, et al. "Textrunner: estrazione di informazioni aperta sul web." Atti delle tecnologie del linguaggio umano: la conferenza annuale del capitolo nordamericano dell'Associazione per la linguistica computazionale: dimostrazioni. Associazione per la linguistica computazionale, 2007. ):

Il discente opera in due fasi. Innanzitutto, etichetta automaticamente i propri dati di allenamento come positivi o negativi. In secondo luogo, utilizza questi dati etichettati per addestrare un classificatore Naive Bayes.


Supervisione debole (Hoffmann, Raphael, et al. "Supervisione debole basata sulla conoscenza per l'estrazione di informazioni di relazioni sovrapposte." .):

Un approccio più promettente, spesso chiamato supervisione "debole" o "distante", crea i propri dati di allenamento abbinando euristicamente i contenuti di un database al testo corrispondente.


Tutto suona lo stesso per me, con l'eccezione che l'auto-allenamento sembra essere leggermente diverso in quanto l'euristica dell'etichettatura è il classificatore addestrato e c'è un ciclo tra la fase di etichettatura e la fase di addestramento del classificatore. Tuttavia, Yao, Limin, Sebastian Riedel e Andrew McCallum. " Estrazione collettiva di documenti incrociati senza dati etichettati " . Atti della Conferenza del 2010 sui metodi empirici nell'elaborazione del linguaggio naturale. Association for Computational Linguistics, 2010. afferma che la supervisione a distanza == auto-allenamento == supervisione debole.

Inoltre, ci sono altri sinonimi ?


Domanda interessante. Potrebbe appartenere a Data Science?
goangit,

@goangit Probabilmente, come un buon pezzo di questo sito Web;)
Franck Dernoncourt

Risposte:


7

f

f

Tradizionalmente, in qualsiasi documento di apprendimento automatico sull'apprendimento supervisionato, si potrebbe scoprire che il documento presume implicitamente che i dati di addestramento siano disponibili e per il loro valore, di solito si presume che le etichette siano precise e che non vi siano ambiguità nelle etichette che vengono dati alle istanze nei dati di addestramento. Tuttavia, con documenti di supervisione distanti / deboli, le persone si sono rese conto che i loro dati di allenamento hanno etichette imprecise e ciò che di solito vogliono evidenziare nel loro lavoro è che ottengono buoni risultati nonostante l'ovvio inconveniente dell'uso di etichette imprecise (e potrebbero avere altri modi algoritmici per superare il problema delle etichette imprecise, avendo un processo di filtraggio aggiuntivo ecc. e di solito i documenti vorrebbero sottolineare che questi processi aggiuntivi sono importanti e utili). Ciò ha dato origine ai termini "debole" o "distante" per indicare che le etichette sui dati di allenamento sono imprecise. Si noti che ciò non influisce necessariamente sull'aspetto dell'apprendimento del classificatore. Il classificatore che questi ragazzi usano ancora presuppone implicitamente che le etichette siano precise e che l'algoritmo di allenamento non sia quasi mai cambiato.

L'auto-allenamento d'altra parte è in qualche modo speciale in questo senso. Come hai già osservato, ottiene le sue etichette dal proprio classificatore e ha un po 'di un circuito di feedback per la correzione. In generale, studiamo i classificatori supervisionati sotto una vasta portata di algoritmi "induttivi", in cui il classificatore appreso è un'inferenza induttiva ricavata dai dati di addestramento su tutti i dati. Le persone hanno studiato un'altra forma, che chiamiamo inferenza trasduttiva, in cui un'inferenza induttiva generale non è il risultato dell'algoritmo, ma l'algoritmo prende collettivamente sia i dati di addestramento che i dati di test come input e produce etichette sui dati di test. Tuttavia, le persone hanno capito perché non usare l'inferenza trasduttiva all'interno dell'apprendimento induttivo per ottenere un classificatore con dati di addestramento più ampi.

Spero di non averti più confuso, sentiti libero di commentare e di chiedere ulteriori chiarimenti, se necessario.

[1] Potrebbe essere utile - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf


Grazie, la tua risposta è molto interessante! Che ne dici di autoapprendimento? Come la supervisione distante / debole?
Franck Dernoncourt,

1
Sì. Non vedo particolarmente la differenza tra autoapprendimento e supervisione distante / debole, poiché le etichette sono ottenute separatamente da una fonte imprecisa e quindi inviate a un classificatore supervisionato.
TenaliRaman,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.