Perché il metodo di controllo (suddivisione dei dati in formazione e test) non viene utilizzato nelle statistiche classiche?


12

Nella mia esposizione in classe al data mining, il metodo di controllo è stato introdotto come un modo per valutare le prestazioni del modello. Tuttavia, quando ho preso la mia prima classe sui modelli lineari, questo non è stato introdotto come mezzo di validazione o valutazione del modello. Anche la mia ricerca online non mostra alcun tipo di incrocio. Perché il metodo di controllo non viene utilizzato nelle statistiche classiche?

Risposte:


22

Una domanda più produttiva potrebbe essere "perché non è stata utilizzata nelle statistiche classiche che ho imparato?"

A seconda dei livelli a cui è stato insegnato, il contenuto del corso (e il tempo disponibile) che la scelta può essere dovuta a una combinazione di vari fattori. Spesso argomenti importanti vengono lasciati da parte perché altro materiale deve essere insegnato per un motivo o per l'altro, con la speranza che possano essere trattati nelle materie successive.

Almeno in alcuni sensi, l'idea è stata a lungo utilizzata da una varietà di persone. Era più comune in alcune aree rispetto ad altri. Molti usi delle statistiche non hanno la previsione o la selezione del modello come componente principale (o in alcuni casi, anche del tutto), e in tal caso, l'uso di campioni di controllo può essere meno critico rispetto a quando la previsione è il punto principale. Probabilmente, avrebbe dovuto ottenere un uso più diffuso in una fase precedente in alcune applicazioni pertinenti rispetto a quello che ha fatto, ma non è la stessa cosa di essere sconosciuto.

Se osservi le aree che si concentrano sulla previsione, la nozione di valutazione del modello prevedendo i dati che non hai utilizzato per stimare il tuo modello era sicuramente in circolazione (anche se non universale). Lo stavo certamente facendo con la modellazione di serie storiche che stavo facendo negli anni '80, ad esempio, dove le prestazioni predittive fuori campione dei dati più recenti erano particolarmente importanti.

L'idea di tralasciare almeno alcuni dati è stata utilizzata nella regressione (residui eliminati, PRESS, il coltello e così via) e, ad esempio, in un'analisi errata.

Alcune di queste idee risalgono ancora molto prima. Stone (1974) [1] fa riferimento a documenti sulla convalida incrociata (con la parola nel titolo) degli anni '50 e '60. Forse ancora più vicino al tuo intento, menziona l'uso di Simon (1971) dei termini "campione di costruzione" e "campione di validazione" - ma sottolinea anche che "Larson (1931) impiegava una divisione casuale del campione in un multiplo educativo studio di regressione ".

Argomenti come la validazione incrociata e l'uso di statistiche basate sulla previsione e così via, stavano diventando sostanzialmente più frequenti nella letteratura statistica negli anni '70 e '80, per esempio, ma molte delle idee di base erano in circolazione da un po 'di tempo anche poi.

[1]: Stone, M., (1974)
"Scelta cross-validatoria e valutazione delle previsioni statistiche",
Journal of the Royal Statistical Society. Serie B (metodologica) , vol. 36, n. 2., pagg. 111-147


Solo per la cronaca, il fatto che M. Stone non sono io, né è legato a me, tranne forse attraverso Adamo ed Eva.
Mark L. Stone,

11

A complemento della risposta di Glen_b, le statistiche classiche spesso avevano / enfatizzano l' uso ottimale dei dati, i test ottimali, gli stimatori ottimali, la sufficienza e così via, e in quel quadro teorico è difficile giustificare il non utilizzo di parte delle informazioni ! Parte di questa tradizione è l'enfasi sulle situazioni con piccoli campioni, in cui la tenuta è praticamente difficile.

Fisher ha lavorato, ad esempio, principalmente con la genetica e la sperimentazione agricola, e in quei campi era la regola il piccolo numero di osservazioni. Quindi è stato principalmente esposto a tali problemi con piccoli set di dati.


6

Risponderò da un campo applicato che si trova forse tra la statistica classica e l'apprendimento automatico: la chemometria, cioè le statistiche per le analisi chimiche. Aggiungerò due diversi scenari in cui l'aggancio non è così importante come nelle normali lezioni di machine learning.


Scenario 1:

Penso che un punto cruciale qui sia rendersi conto che esiste una differenza fondamentale in ciò che è la piccola dimensione del campione per la formazione rispetto ai test:

  • Per la formazione, in genere il rapporto tra il numero di casi: la complessità del modello (numero di parametri) conta (gradi di libertà)
  • Per i test, il numero assoluto di casi di test è importante.
    (La qualità della procedura di prova deve essere indipendente dal modello: viene trattata come una scatola nera dalla convalida con casi di prova indipendenti)

Il secondo punto di cui avrò bisogno per le mie argomentazioni è che la situazione in cui i casi di test indipendenti sono cruciali è un eccesso di adattamento. Se il modello non è abbastanza complesso ( variazione di bias , quindi sotto adattamento), i residui possono dirti tanto sull'errore di predizione totale quanto sui casi indipendenti.

Ora, le lezioni di statistica sui modelli lineari "classici" spesso enfatizzano molto i modelli univariati. Per un modello lineare univariato, la dimensione del campione di allenamento non è probabilmente piccola: le dimensioni del campione di allenamento sono generalmente valutate rispetto alla complessità del modello e il modello lineare ha solo due parametri, offset e pendenza. In chimica analitica, in realtà abbiamo una norma che afferma che dovresti avere almeno 10 campioni di calibrazione per la tua calibrazione lineare univariata. Ciò garantisce una situazione in cui l'instabilità del modello non è un problema affidabile, quindi non è necessario un aggancio.

Tuttavia, nell'apprendimento automatico, così come nei moderni rivelatori multicanale nell'analisi chimica (a volte 10 "canali", ad esempio nella spettrometria di massa), la stabilità del modello (ovvero la varianza) è un aspetto importante. Pertanto, è necessario resistere o ricampionare meglio.


Scenario 2:

Una situazione completamente diversa è che l'aggancio può essere saltato a favore di una combinazione di un più semplice (residui) più una misurazione delle prestazioni più sofisticata. Si noti che l'aggancio nel senso di accantonare (casualmente) parte di un set di dati ed escluderlo dall'allenamento non equivale a ciò che i test indipendenti possono ottenere. Nella chimica analitica, possono essere condotti esperimenti di convalida dedicati che includeranno, ad esempio, la misurazione della degradazione delle prestazioni nel tempo (deriva dello strumento) che non può essere misurata mediante blocco e stabilendo ad esempio le prestazioni del sensore nell'ambiente industriale reale (mentre la calibrazione del sensore è stato fatto in laboratorio su campioni di calibrazione). Vedi anche /stats//a/104750/4598 per maggiori dettagli su test indipendenti vs. hold-out.


Sopra, nello sceanario 1, penso che tu abbia voluto dire (bias << varianza)? Per favore Correggi!
kjetil b halvorsen,

1
@kjetilbhalvorsen no, perché si riferisce al underfitting in quel paragrafo (modello che non è abbastanza complesso).
Marc Claesen,

@kjetilbhalvorsen; Marc Claesen ha ragione, ho sottolineato che questo è per le situazioni in cui puoi essere sicuro che il problema sia insufficiente.
cbeleites insoddisfatto di SX il

OK. alcune lettere per soddisfare req
kjetil b halvorsen
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.