Quanto è necessario un set di allenamento?


24

Esiste un metodo comune utilizzato per determinare quanti campioni di addestramento sono necessari per addestrare un classificatore (un LDA in questo caso) per ottenere una precisione minima di generalizzazione della soglia?

Lo sto chiedendo perché vorrei minimizzare il tempo di calibrazione normalmente richiesto in un'interfaccia cervello-computer.


2
user2030669, @cbeleites la risposta che segue è superba ma come una regola empirica: hai bisogno di almeno 6 volte il numero di casi (campioni) come caratteristiche.
BGreene

2
... in ogni classe. Ho visto anche raccomandazioni di 5p e 3p / classe.
cbeleites supporta Monica

Risposte:


31

Il termine di ricerca che stai cercando è "curva di apprendimento", che fornisce le prestazioni (medie) del modello in funzione della dimensione del campione di addestramento.

Le curve di apprendimento dipendono da molte cose, ad es

  • metodo di classificazione
  • complessità del classificatore
  • quanto bene le classi sono separate.

(Penso che per l'LDA a due classi potresti essere in grado di ricavare alcuni calcoli teorici della potenza, ma il fatto cruciale è sempre se i tuoi dati soddisfano effettivamente il presupposto "uguale COV multivariato normale". Vorrei fare qualche simulazione su entrambi gli LDA ipotesi e ricampionamento dei dati già esistenti).

n

  • nn= casi di addestramento (questo di solito si intende per curva di apprendimento), e
  • n

    n

Un altro aspetto che potrebbe essere necessario prendere in considerazione è che di solito non è sufficiente addestrare un buon classificatore, ma è anche necessario dimostrare che il classificatore è buono (o abbastanza buono). Quindi è necessario pianificare anche le dimensioni del campione necessarie per la validazione con una data precisione. Se è necessario fornire questi risultati come una frazione dei successi tra tanti casi di test (ad es. Accuratezza / precisione / sensibilità del produttore o del consumatore / valore predittivo positivo) e l'attività di classificazione sottostante è piuttosto semplice, questo può richiedere casi più indipendenti rispetto alla formazione di un buon modello.

Come regola generale, per l'addestramento, la dimensione del campione viene solitamente discussa in relazione alla complessità del modello (numero di casi: numero di variate), mentre i limiti assoluti sulla dimensione del campione di prova possono essere dati per una precisione richiesta della misurazione delle prestazioni.

Ecco un documento, in cui abbiamo spiegato queste cose in modo più dettagliato, e anche discusso su come costruire curve di apprendimento:
Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Pianificazione della dimensione del campione per i modelli di classificazione. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manoscritto accettato su arXiv: 1211.1323

Questo è il "teaser", che mostra un facile problema di classificazione (in realtà abbiamo una facile distinzione come questa nel nostro problema di classificazione, ma altre classi sono molto più difficili da distinguere): carta per la pianificazione della dimensione del campione del teaser

Non abbiamo cercato di estrapolare a dimensioni di campioni di addestramento più grandi per determinare quanti più casi di addestramento sono necessari, perché le dimensioni dei campioni di prova sono il nostro collo di bottiglia e le dimensioni di campioni di addestramento più grandi ci permetterebbero di costruire modelli più complessi, quindi l'estrapolazione è discutibile. Per il tipo di set di dati che ho, mi approccerei in modo iterativo, misurando un sacco di nuovi casi, mostrando quante cose sono migliorate, misurando più casi e così via.

Questo potrebbe essere diverso per te, ma il documento contiene riferimenti bibliografici a documenti che utilizzano l'estrapolazione per campioni di dimensioni più elevate al fine di stimare il numero richiesto di campioni.


l'utilizzo di uno schema di regolarizzazione per la mia LDA mi consentirebbe di lavorare con un set di formazione più piccolo?
Lunat1c

1
@ user2036690, Un modello più parsimonioso (meno funzioni) richiederebbe meno campioni di training. Uno schema di regolarizzazione non influirebbe sul numero di campioni necessari, se solo riducesse l'impatto di caratteristiche meno importanti. Una sorta di razionalizzazione delle funzionalità può consentire un set di addestramento più piccolo
BGreene

1
Tuttavia, la selezione delle funzionalità basata sui dati richiede enormi quantità di campioni poiché ogni confronto tra modelli è in realtà un test statistico. La selezione delle funzionalità da parte di esperti, tuttavia, può aiutare immediatamente. @BGreene: puoi espandere il motivo per cui la regolarizzazione non può aiutare a ridurre i requisiti di dimensione del campione (ad esempio considerando una cresta su una matrice di covarianza mal condizionata)? IMHO non può fare miracoli, ma può aiutare.
cbeleites supporta Monica

Bene, senza entrare in una discussione epica, mi riferivo alla formulazione di regolarizzazione di Friedman piuttosto che alla cresta o ad altre regressioni penalizzate. Ma in entrambi i casi i coefficienti non sono ridotti a zero come in Lazo, quindi la dimensionalità non viene influenzata, il che di conseguenza non avrebbe alcun effetto sulla dimensione del campione necessaria per evitare una matrice mal posizionata come si fa riferimento sopra.
Ci

@BGreene: niente chiacchiere, te l'ho chiesto di nuovo. La domanda interessante è: quanto vengono ridotti i df / complessità complessivi impostando i coefficienti a zero in modo guidato dai dati . Comunque, stiamo andando alla deriva in una storia diversa ...
cbeleites supporta Monica

4

Chiedere l'addestramento delle dimensioni del campione implica che si trattengono i dati per la convalida del modello. Questo è un processo instabile che richiede un'enorme dimensione del campione. Spesso è preferibile una forte convalida interna con il bootstrap. Se si sceglie quel percorso, è necessario calcolare solo una dimensione del campione. Come @cbeleites ha affermato così bene che questa è spesso una valutazione di "eventi per variabile candidato", ma sono necessarie almeno 96 osservazioni per prevedere con precisione la probabilità di un risultato binario anche se non ci sono caratteristiche da esaminare [questo per ottenere 0,95 margine di confidenza di errore di 0,1 nella stima della probabilità marginale effettiva che Y = 1].

È importante considerare regole di punteggio adeguate per la valutazione dell'accuratezza (ad es. Punteggio di Brier e probabilità / devianza del registro). Assicurati anche di voler davvero classificare le osservazioni invece di stimare la probabilità di appartenenza. Quest'ultimo è quasi sempre più utile in quanto consente una zona grigia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.