Sulla "forza" dei discenti deboli


22

Ho diverse domande strettamente correlate riguardanti gli studenti deboli nell'apprendimento in gruppo (ad es. Il potenziamento).

  1. Questo può sembrare stupido, ma quali sono i vantaggi dell'utilizzo di studenti deboli piuttosto che forti? (es. perché non potenziare con metodi di apprendimento "forti"?)
  2. Esiste una sorta di forza "ottimale" per gli studenti deboli (ad esempio mantenendo fissi tutti gli altri parametri dell'ensemble)? C'è un "punto debole" quando si tratta della loro forza?
  3. Come possiamo misurare la forza di uno studente debole rispetto a quello del metodo dell'ensemble risultante. Come misuriamo quantitativamente i vantaggi marginali dell'utilizzo di un ensemble?
  4. Come possiamo confrontare diversi algoritmi di apprendimento debole per decidere quale usare per un determinato metodo di ensemble?
  5. Se un determinato metodo di ensemble aiuta i classificatori deboli più di quelli forti, come possiamo dire che un determinato classificatore è già "troppo forte" per produrre guadagni significativi quando si incrementa con esso?

Risposte:


16

Questo può essere più nello spirito di insaccamento, ma tuttavia:

  • Se hai davvero uno studente forte, non c'è bisogno di migliorarlo con qualsiasi materiale d'insieme.
  • Direi ... irrilevante. Nel mescolare e insaccare banalmente, nel potenziare la creazione di un classificatore troppo forte può portare ad alcune violazioni della convergenza (vale a dire una previsione fortunata può fare la prossima iterazione per prevedere il rumore puro e quindi ridurre le prestazioni), ma questo è di solito riparato nelle iterazioni successive.
  • Ancora una volta, questo non è il vero problema. Il vero nucleo di questi metodi è quello di

    1. impone ai classificatori parziali di approfondire il problema.
    2. unire le loro previsioni per attenuare il rumore e amplificare il segnale.

    1) ha bisogno di una certa attenzione nel dare impulso (cioè un buon schema di potenziamento, uno studente parziale ben educato - ma questo deve essere giudicato principalmente da esperimenti su tutto il potenziamento), 2) nel confezionamento e miscelazione (principalmente come garantire la mancanza di correlazione tra gli studenti e non sovrastimare l'ensemble). Finché è OK, l'accuratezza del classificatore parziale è un problema del terzo ordine.


Grazie @mbq. Quanto sopra significa che i classificatori deboli in genere traggono maggiori benefici dai metodi ensemble rispetto a quelli forti? (es. il potenziamento aiuta i classificatori deboli più di quelli forti). In questo senso, come sappiamo che un determinato classificatore è già abbastanza forte per un certo metodo di ensemble? (ad esempio, come puoi dire in modo approssimativo di avere uno studente forte che non trarrà molto beneficio dal potenziamento?)
Amelio Vazquez-Reina,

1
Piuttosto solo i classificatori deboli offrono uno spazio per il miglioramento. In generale, la forza è una qualità astratta e non possiamo davvero misurarla. L'unico test certo è solo quello di fare un esperimento e verificare se l'insieme aumenta significativamente le prestazioni. In tal caso, il classificatore era debole. Se no, beh, non sappiamo ancora nulla.

11

In primo luogo, le nozioni di "debole" e "forte" sono definite solo debolmente. Dal mio punto di vista, devono essere definiti in relazione al classificatore Bayes ottimale, che è l'obiettivo di qualsiasi algoritmo di allenamento. Tenendo presente ciò, la mia risposta a tre dei punti è la seguente.

  1. Computazionale come la vedo io. La maggior parte degli studenti deboli che conosco sono veloci dal punto di vista computazionale (e altrimenti non meritano considerazione). Un punto importante nell'apprendimento d'insieme è precisamente che possiamo combinare gli studenti semplici e veloci, ma non così bravi, e migliorare il tasso di errore. Se utilizziamo studenti più forti (e più esigenti dal punto di vista computazionale), lo spazio per i miglioramenti diminuisce, ma il costo computazionale aumenta, il che rende meno interessante l'uso dei metodi di ensemble. Inoltre, un singolo studente forte può essere più facile da interpretare. Tuttavia, ciò che è debole e ciò che è forte dipende dal problema e dalla velocità ottimale di Bayes che tentiamo di raggiungere. Quindi, se uno studente che è spesso considerato forte lascia ancora spazio a miglioramenti quando lo aumenta e lo stimolo è fattibile dal punto di vista computazionale, allora aumenta ...
  2. Ciò dipenderà dai criteri utilizzati per misurare "ottimale". In termini di tasso di errore direi di no (accolgo con favore eventuali correzioni se altri hanno un'esperienza diversa). In termini di velocità, forse, ma immagino che questo dipenda fortemente dal problema. Non conosco letteratura che affronti questo problema, scusa.
  3. ?
  4. Convalida incrociata, convalida incrociata, convalida incrociata. Come ogni altro confronto di metodi di allenamento con l'obiettivo di fare previsioni, abbiamo bisogno di stime imparziali dell'errore di generalizzazione per il confronto, che possono essere ottenute mettendo da parte un set di dati di test o approssimando questo mediante la validazione incrociata.

Grazie @NRH, è molto utile. Ho separato la terza domanda in due domande separate, poiché penso che probabilmente richiedano risposte diverse.
Amelio Vazquez-Reina,

Quindi c'è un modo per scoprire quanto è vicino un classificatore al classificatore Bayes ottimale? Se è già abbastanza vicino, non possiamo migliorarlo.
highBandWidth

@highBandWidth, non è possibile sapere quale sia il tasso di Bayes. È una quantità teorica che si basa sulla distribuzione sconosciuta. Ipotesi teoriche potrebbero fornire limiti inferiori e superiori (asintotici) e, utilizzando la validazione incrociata o dati di test indipendenti, è possibile stimare con precisione i limiti superiori. Ma a meno che non si conosca la distribuzione, è impossibile dire se tali limiti superiori siano stretti o lasciare margini di miglioramento.
NRH,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.