La suddivisione dei dati in set di test e training è puramente una cosa "statistica"?

Sono uno studente di fisica che studia apprendimento automatico / scienza dei dati, quindi non intendo per questa domanda iniziare alcun conflitto :) Tuttavia, gran parte di qualsiasi programma di laurea in fisica è fare laboratori / esperimenti, il che significa molti dati elaborazione e analisi statistica. Tuttavia, noto una netta differenza tra il modo in cui i fisici trattano i dati e il modo in cui i miei libri di scienza dei dati / apprendimento statistico trattano i dati.

La differenza principale è che quando si tenta di eseguire regressioni ai dati ottenuti da esperimenti di fisica, gli algoritmi di regressione sono applicati al INTERO set di dati, non v'è alcuna suddivisione in gruppi di formazione e di test. Nel mondo della fisica, l'R ^ 2 o qualche tipo di pseudo-R ^ 2 viene calcolato per il modello in base all'intero set di dati. Nel mondo delle statistiche, i dati sono quasi sempre suddivisi in 80-20, 70-30, ecc ... e quindi il modello viene valutato rispetto al set di dati di test.

Ci sono anche alcuni importanti esperimenti di fisica (ATLAS, BICEP2, ecc ...) che non fanno mai questa suddivisione dei dati, quindi mi chiedo perché ci sia una differenza così forte tra il modo in cui i fisici / gli sperimentatori fanno le statistiche e il modo in cui i data scientist fare statistiche.

— Thomas Moore
fonte

(+1) domanda molto bella (che non ho il tempo di rispondere correttamente). Commento: la fisica ha il lusso di "esperimenti reali"; condizioni generalmente controllate / di laboratorio, risultati / variabili per lo più ben definiti e ripetibilità ipotizzata. I soliti progetti di sanità pubblica / Econometria / Statistica dei sondaggi (per citare alcuni ovvi sottocampi) proprio non lo capiscono. La confusione, la stagionalità (dipendenza dal tempo) e la deriva generale dei concetti sono all'ordine del giorno in Statistica, quindi questa "suddivisione dei dati" è uno dei modi ovvi per prevenire risultati totalmente sciocchi. Inoltre, non tutti gli stimatori sono creati ugualmente efficienti. :)

— usεr11852

Troverai molte discussioni e informazioni pertinenti in un recente documento di discussione di David Donoho, professore di statistica a Stanford: corsi.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Vedi in particolare la discussione su "Cultura predittiva "in contrasto con le statistiche tradizionali.

— Gordon Smyth,

Penso che sia una cosa "previsione in assenza di teoria", che è un piccolo sottoinsieme di "statistiche" e un ampio sottoinsieme di apprendimento automatico.

— The Laconic,

gli statistici non dividono neanche i loro dati (p <.05)

— rep_ho

@rep_ho alcuni - forse molti - statistici coinvolti in situazioni in cui la predizione fuori campione è importante farlo (e alcuni lo fanno da molto tempo). idee come la crossvalidation e le statistiche di abbandono (per esempio) sono in circolazione da secoli. Gli statistici tendono a non dividersi solo una volta, a meno che ciò sia inevitabile. Può dipendere da quali statistiche si parla

— Glen_b -Restate Monica

Risposte:

Non tutte le procedure statistiche si dividono in dati di addestramento / test, chiamati anche "convalida incrociata" (sebbene l'intera procedura implichi un po 'di più).

Piuttosto, questa è una tecnica che viene utilizzata specificamente per stimare l'errore fuori campione ; cioè quanto bene il tuo modello prevede nuovi risultati usando un nuovo set di dati? Questo diventa un problema molto importante quando si dispone, ad esempio, di un numero molto elevato di predittori rispetto al numero di campioni nel set di dati. In questi casi, è davvero facile costruire un modello con un errore nel campione grande ma un errore terribile fuori dal campione (chiamato "over fitting"). Nei casi in cui si hanno sia un gran numero di predittori che un gran numero di campioni, la convalida incrociata è uno strumento necessario per aiutare a valutare il comportamento del modello quando si prevede su nuovi dati. È anche uno strumento importante nella scelta tra modelli predittivi concorrenti.

In un'altra nota, la validazione incrociata viene quasi sempre utilizzata solo quando si cerca di costruire un modello predittivo . In generale, non è molto utile per i modelli quando si cerca di stimare l'effetto di un trattamento. Ad esempio, se si sta confrontando la distribuzione della resistenza alla trazione tra i materiali A e B (il "trattamento" è di tipo materiale), la convalida incrociata non sarà necessaria; mentre speriamo che la nostra stima dell'effetto del trattamento si generalizzi fuori campione, per la maggior parte dei problemi la teoria statistica classica può rispondere a questa (cioè "errori standard" delle stime) più precisamente della validazione incrociata. Sfortunatamente, metodologia statistica classica ¹per errori standard non regge in caso di overfitting. La convalida incrociata spesso fa molto meglio in quel caso.

D'altra parte, se stai provando a prevedere quando un materiale si romperà sulla base di 10.000 variabili misurate che lancerai in un modello di apprendimento automatico basato su 100.000 osservazioni, avrai molti problemi a costruire un modello eccezionale senza convalida incrociata!

Sto indovinando molti degli esperimenti di fisica fatti, sei generalmente interessato alla stima degli effetti. In questi casi, c'è pochissima necessità di validazione incrociata.

¹ Si potrebbe sostenere che i metodi bayesiani con priori informativi sono una metodologia statistica classica che affronta il overfitting. Ma questa è un'altra discussione.

Nota a margine: mentre la convalida incrociata è apparsa per la prima volta nella letteratura statistica, ed è sicuramente utilizzata da persone che si definiscono statistici, è diventata uno strumento fondamentale richiesto nella comunità dell'apprendimento automatico. Molti modelli statistici funzioneranno bene senza l'uso della convalida incrociata, ma quasi tutti i modelli considerati "modelli predittivi di apprendimento automatico" necessitano di convalida incrociata, poiché spesso richiedono la selezione di parametri di ottimizzazione, che è quasi impossibile fare a meno della croce -Validazione.

— Cliff AB
fonte

n \approx p

$n \approx p$

@ usεr11852: sì, ma è quasi impossibile scegliere penalità di regolarizzazione ragionevoli senza convalida incrociata (oltre a pensare alle penalità come priori bayesiani, ma è difficile con i modelli di scatola nera!). E mentre desideriamo che i nostri risultati nel confronto tra A e B tengano fuori dal campione, questo in genere non è un problema che richiede l'ottimizzazione del modello (come spesso fa la previsione), e con il numero relativamente basso di parametri, la teoria statistica classica può gestire questo senza usare la validazione incrociata.

— Cliff AB,

Questo è un argomento circolare, la regolarizzazione usa la validazione incrociata ma la validazione incrociata viene fatta per la regolarizzazione. Ecco perché ho commentato un po 'contro di esso per cominciare. Penso che l'inferenza / causalità statistica si allontani da questo approccio di ottimizzazione non modello (vedi ad esempio Johansson et al. 2016 "Apprendere le rappresentazioni per l'inferenza controfattuale" - un documento così bello e disordinato). Infine, la ricerca di Fisica Fondamentale, quando viene presentata, presenta problemi difficili e può contare anche su approcci ML (ad es. La sfida di apprendimento automatico del bosone di Higgs ).

— usεr11852,

@ usεr11852 La regolarizzazione non "usa" la validazione incrociata, ma piuttosto il parametro di ottimizzazione per la regolarizzazione viene scelto usando la validazione incrociata. Ad esempio, vedere glment's cv.glmnetper l'intera procedura in una bella funzione compatto.

— Cliff AB,

Inoltre, non ho mai affermato che la ricerca fisica non può usare approcci ML né convalida incrociata! Stavo solo spiegando che la convalida incrociata viene in genere utilizzata specificamente per scegliere tra modelli complessi / parametri di ottimizzazione in modelli predittivi e che in molti esperimenti di fisica classica la convalida incrociata non è necessaria. Quindi, ciò che i fisici fanno con quei dati non è necessariamente in contrasto con ciò che gli statistici farebbero con quei dati, che ritengo essere il nocciolo della domanda del PO.

— Cliff AB,

Essendo chimico (analitico) , incontro entrambi gli approcci: calcolo analitico delle figure di merito [principalmente per regressione univariata] e misurazione diretta delle figure di merito predittive.
La divisione treno / test per me è il "fratellino" di un esperimento di validazione per misurare la qualità della previsione.

Risposta lunga:

Gli esperimenti tipici che facciamo, ad es. In chimica fisica universitaria, utilizzano la regressione univariata. Le proprietà di interesse sono spesso i parametri del modello, ad esempio la costante di tempo durante la misurazione della cinetica di reazione, ma talvolta anche le previsioni (ad esempio la calibrazione lineare univariata per prevedere / misurare un valore di interesse).
Queste situazioni sono molto favorevoli in termini di non eccesso di adattamento: di solito rimane un numero confortevole di gradi di libertà dopo che tutti i parametri sono stati stimati, e sono usati per addestrare (come nell'istruzione) gli studenti con un calcolo della confidenza o dell'intervallo di previsione classico ed errore classico propagazione - sono stati sviluppati per queste situazioni. E anche se la situazione non è del tutto simile a un libro di testo (ad esempio, ho una struttura nei miei dati, ad esempio nella cinetica, mi aspetto che i dati siano meglio descritti dalla varianza tra le serie della reazione + varianza tra le misurazioni in una serie piuttosto che da un semplice approccio a una sola varianza), in genere posso avere abbastanza esecuzioni dell'esperimento per ottenere ancora risultati utili.

$p$ $n$ $n < p$ $n$ $n$ $n$ $df$ , gli approcci classici non funzionano. Ma poiché faccio principalmente predizioni, ho sempre una possibilità molto diretta di misurare l'abilità predittiva del mio modello: faccio predizioni e le confronto con i valori di riferimento.

Questo approccio è in realtà molto potente (anche se costoso a causa di un maggiore sforzo sperimentale), poiché mi permette di sondare la qualità predittiva anche per le condizioni che non erano coperte nei dati di addestramento / calibrazione. Ad esempio, posso misurare come la qualità predittiva si deteriora con l'estrapolazione (l'estrapolazione include anche misurazioni effettuate, per esempio, un mese dopo l'acquisizione dei dati di allenamento), posso sondare la resistenza contro fattori confondenti che mi aspetto essere importanti, ecc. In altre parole , possiamo studiare il comportamento del nostro modello così come studiamo il comportamento di qualsiasi altro sistema: sondiamo determinati punti o lo perturbiamo e osserviamo il cambiamento nella risposta del sistema, ecc.

Direi che più importante è la qualità predittiva (e maggiore è il rischio di overfitting) più tendiamo a preferire misurazioni dirette della qualità predittiva piuttosto che numeri derivati analiticamente. (Naturalmente avremmo potuto includere tutti quei confondenti anche nella progettazione dell'esperimento di addestramento). Alcune aree come la diagnostica medica richiedono che vengano eseguiti studi di validazione adeguati prima che il modello venga "rilasciato" su pazienti reali.

La suddivisione treno / test (che tenga premuto * o cross validation o out-of-bootstrap o ...) semplifica ulteriormente questo passaggio. Salviamo l'esperimento aggiuntivo e non estrapoliamo (generalizziamo solo per prevedere casi indipendenti sconosciuti della stessa distribuzione dei dati di addestramento). Descriverei questo come una verifica piuttosto che una validazione (sebbene la validazione sia profondamente nella terminologia qui). Questo è spesso il modo pragmatico di procedere se non ci sono richieste troppo elevate sulla precisione delle figure di merito (potrebbe non essere necessario conoscerle in modo molto preciso in uno scenario di prova di concetto).

* non confondere una singola divisione casuale in treno e testare con uno studio adeguatamente progettato per misurare la qualità della previsione.

— cbeleites insoddisfatto di SX
fonte

+1 per indicare la differenza nella verifica e nella convalida.

— previsioni