Il termine di ricerca che stai cercando è "curva di apprendimento", che fornisce le prestazioni (medie) del modello in funzione della dimensione del campione di addestramento.
Le curve di apprendimento dipendono da molte cose, ad es
- metodo di classificazione
- complessità del classificatore
- quanto bene le classi sono separate.
(Penso che per l'LDA a due classi potresti essere in grado di ricavare alcuni calcoli teorici della potenza, ma il fatto cruciale è sempre se i tuoi dati soddisfano effettivamente il presupposto "uguale COV multivariato normale". Vorrei fare qualche simulazione su entrambi gli LDA ipotesi e ricampionamento dei dati già esistenti).
n
- nn = ∞ casi di addestramento (questo di solito si intende per curva di apprendimento), e
- n
n
Un altro aspetto che potrebbe essere necessario prendere in considerazione è che di solito non è sufficiente addestrare un buon classificatore, ma è anche necessario dimostrare che il classificatore è buono (o abbastanza buono). Quindi è necessario pianificare anche le dimensioni del campione necessarie per la validazione con una data precisione. Se è necessario fornire questi risultati come una frazione dei successi tra tanti casi di test (ad es. Accuratezza / precisione / sensibilità del produttore o del consumatore / valore predittivo positivo) e l'attività di classificazione sottostante è piuttosto semplice, questo può richiedere casi più indipendenti rispetto alla formazione di un buon modello.
Come regola generale, per l'addestramento, la dimensione del campione viene solitamente discussa in relazione alla complessità del modello (numero di casi: numero di variate), mentre i limiti assoluti sulla dimensione del campione di prova possono essere dati per una precisione richiesta della misurazione delle prestazioni.
Ecco un documento, in cui abbiamo spiegato queste cose in modo più dettagliato, e anche discusso su come costruire curve di apprendimento:
Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Pianificazione della dimensione del campione per i modelli di classificazione. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manoscritto accettato su arXiv: 1211.1323
Questo è il "teaser", che mostra un facile problema di classificazione (in realtà abbiamo una facile distinzione come questa nel nostro problema di classificazione, ma altre classi sono molto più difficili da distinguere):
Non abbiamo cercato di estrapolare a dimensioni di campioni di addestramento più grandi per determinare quanti più casi di addestramento sono necessari, perché le dimensioni dei campioni di prova sono il nostro collo di bottiglia e le dimensioni di campioni di addestramento più grandi ci permetterebbero di costruire modelli più complessi, quindi l'estrapolazione è discutibile. Per il tipo di set di dati che ho, mi approccerei in modo iterativo, misurando un sacco di nuovi casi, mostrando quante cose sono migliorate, misurando più casi e così via.
Questo potrebbe essere diverso per te, ma il documento contiene riferimenti bibliografici a documenti che utilizzano l'estrapolazione per campioni di dimensioni più elevate al fine di stimare il numero richiesto di campioni.