La rivista Science ha approvato il Garden of Forking Pathes Analyses?


29

L'idea dell'analisi adattativa dei dati è che si modifica il piano di analisi dei dati man mano che si apprendono ulteriori informazioni al riguardo. Nel caso dell'analisi esplorativa dei dati (EDA), questa è generalmente una buona idea (stai spesso cercando modelli imprevisti nei dati), ma per uno studio di conferma, questo è ampiamente accettato come un metodo di analisi molto imperfetto (a meno che tutti i passaggi sono chiaramente definiti e adeguatamente pianificati in anticipo).

Detto questo, l'analisi adattativa dei dati è in genere il numero di ricercatori che conducono effettivamente le loro analisi, con grande disappunto degli statistici. In quanto tale, se si potesse farlo in maniera statistica valida, rivoluzionerebbe la pratica statistica.

Il seguente articolo di Science afferma di aver trovato un metodo per farlo (mi scuso per il paywall, ma se sei in un'università, probabilmente hai accesso): Dwork et al, 2015, The riutilizzabile holdout: preservare la validità nell'analisi adattativa dei dati .

Personalmente, sono sempre stato scettico sugli articoli statistici pubblicati su Science , e questo non è diverso. In effetti, dopo aver letto l'articolo due volte, incluso il materiale supplementare, non riesco a capire (affatto) perché gli autori sostengono che il loro metodo impedisce un adattamento eccessivo.

La mia comprensione è che hanno un set di dati di controllo, che potranno riutilizzare. Sembrano affermare "sfogliando" l'output dell'analisi di conferma sul set di dati di holdout, si eviterà il sovra-adattamento (vale la pena notare che il fuzzing sembra solo aggiungere rumore se la statistica calcolata sui dati di allenamento è sufficientemente lontana dalla statistica calcolata sui dati di controllo ). Per quanto ne so, non vi è alcun motivo reale per impedire un adattamento eccessivo.

Sbaglio su ciò che gli autori propongono? C'è qualche effetto sottile che sto trascurando? O la scienza ha approvato la peggiore pratica statistica fino ad oggi?


2
Coloro che non hanno accesso a Science potrebbero voler consultare questo recente articolo di Science su come si può accedere ai documenti a pagamento.
ameba dice Ripristina Monica l'

1
È forse una prestampa: arxiv.org/pdf/1411.2664.pdf ?
Tim

1
@Tim: l' articolo di Science cita la prestampa che hai pubblicato. Inoltre, la sezione Laplacian Noise Addition sembra molto simile, ma non identica, ai metodi nell'articolo pubblicato.
Cliff AB,

1
@CliffAB quindi probabilmente hanno usato la privacy differenziale per renderli diversi;)
Tim

4
Questo argomento è in realtà un tutorial all'ICML del mese scorso. "Dragaggio rigoroso dei dati: teoria e strumenti per l'analisi adattativa dei dati" di alcuni colleghi di Google. icml.cc/2016/?page_id=97
horaceT

Risposte:


7

C'è un post sul blog degli autori che lo descrive ad alto livello.

Per citare fin dall'inizio in quel post:

Al fine di ridurre il numero di variabili e semplificare il nostro compito, selezioniamo innanzitutto alcune variabili dall'aspetto promettente, ad esempio quelle che hanno una correlazione positiva con la variabile di risposta (pressione sistolica). Quindi adattiamo un modello di regressione lineare sulle variabili selezionate. Per misurare la bontà del nostro modello in forma, estraiamo un test F standard dal nostro manuale di statistiche preferito e riportiamo il valore p risultante.

Freedman ha dimostrato che il valore p riportato è altamente fuorviante - anche se i dati fossero completamente casuali senza alcuna correlazione tra la variabile di risposta e i punti dati, probabilmente osserveremmo un valore p significativo! La distorsione deriva dal fatto che abbiamo selezionato un sottoinsieme delle variabili in modo adattivo basato sui dati, ma non teniamo mai conto di questo fatto. Esiste un numero enorme di possibili sottoinsiemi di variabili da cui abbiamo selezionato. Il semplice fatto che abbiamo scelto un test rispetto all'altro dando una sbirciatina ai dati crea una distorsione di selezione che invalida le ipotesi alla base del test F.

Il paradosso di Freedman ha un'importante lezione. I livelli significativi di procedure standard non catturano il vasto numero di analisi che si possono scegliere di effettuare o omettere. Per questo motivo, l'adattabilità è una delle principali spiegazioni del perché i risultati della ricerca sono spesso falsi, come sostenuto da Gelman e Loken, che si riferiscono appropriatamente all'adattività come "giardino dei percorsi di biforcazione".

Non riesco a vedere come la loro tecnica affronti affatto questo problema. Quindi, in risposta alla tua domanda, credo che non si rivolgano al Garden of Forking Paths, e in tal senso la loro tecnica porterà le persone in un falso senso di sicurezza. Non molto diverso dal dire "Ho usato la validazione incrociata" culla molti - che hanno usato CV non nidificati - in un falso senso di sicurezza.

Mi sembra che la maggior parte dei post del blog indichi la loro tecnica come una risposta migliore a come impedire ai partecipanti di una competizione in stile Kaggle di salire sul gradiente del set di test. Il che è utile, ma non si rivolge direttamente ai Forking Paths. Sembra che abbia il sapore del Wolfram e della New Science di Google dove subentreranno enormi quantità di dati. Quella narrativa ha un record misto e io sono sempre scettico sulla magia automatizzata.


3

Sono sicuro che sto semplificando eccessivamente questa tecnica di privacy differenziale qui, ma l'idea ha senso a un livello elevato.

Quando ottieni un algoritmo per ottenere buoni risultati (wow, l'accuratezza sul mio set di test è davvero migliorata), non vuoi saltare subito alla conclusione. Vuoi accettarlo solo quando il miglioramento è significativamente più grande dell'algoritmo precedente. Questa è la ragione per aggiungere rumore.

EDIT: Questo blog ha una buona spiegazione e codici R per dimostrare l'efficacia del noise adder, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


Ma questo non è un miglioramento rispetto al dire "Accetterò solo effetti stimati " ... che non impedirà un adattamento eccessivo (anche se lo smorzerà leggermente). È interessante notare che, nei loro grafici, è possibile vedere prove di eccesso di adattamento (errore segnalato sistematicamente inferiore sui dati di controllo rispetto ai dati aggiornati). >τ
Cliff AB,

1
@CliffAB Ho lo stesso fastidioso motivo per cui funziona meglio di una semplice soglia. Ma hanno prove!
horaceT

>τ

@CliffAB Puoi elaborare? dove? Questa è una possibilità intrigante ...
Orazio

Utilizzando le diapositive del collegamento precedente ( icml.cc/2016/?page_id=97 ), nelle diapositive 72 e 73, anche quando si utilizza il metodo "Soglia", l'accuratezza del controllo è maggiore dei dati aggiornati ad ogni singola simulazione, sebbene fa meglio di "holdout standard" (che è in realtà un "abuso standard del set di dati di validazione", non una vera e propria procedura statistica valida). Cordiali saluti, la trama appare sulle diapositive come la stessa nel documento di Science (nel caso in cui non si abbia accesso).
Cliff AB,

3

L'affermazione secondo cui l'aggiunta di rumore aiuta a prevenire un eccesso di tenuta trattiene effettivamente l'acqua qui, poiché ciò che stanno realmente facendo è limitare il riutilizzo della tenuta . Il loro metodo in realtà fa due cose: limita il numero di domande che possono essere poste al bando e la quantità di ciascuna delle risposte che rivela sui dati di bando.

kknn/k

n/kk

Il cuore del loro metodo è una relazione tra stabilità algoritmica e overfitting, che risale alla fine degli anni '70 (Devroye e Wagner 1978). All'incirca, dice

AXq=A(X)AXPqxqP "

A()f(A())fqAA un'uscita s' anche godere lo stesso tipo di garanzia.

Ora ci sono alcuni documenti che analizzano il modo in cui diverse procedure di aggiunta del rumore controllano il sovradimensionamento. Uno relativamente leggibile è quello di Russo e Zou ( https://arxiv.org/abs/1511.05219 ). Alcuni documenti di follow-up più recenti sul lavoro iniziale di Dwork et al. potrebbe anche essere utile da guardare. (Dichiarazione di non responsabilità: ho due articoli sull'argomento, il più recente che spiega una connessione al test di ipotesi adattiva: https://arxiv.org/abs/1604.03924 .)

Spero che tutto aiuti.


0

Mi oppongo alla tua seconda frase. L'idea che il proprio piano completo di analisi dei dati debba essere determinato in anticipo è ingiustificata, anche in un contesto in cui si sta tentando di confermare un'ipotesi scientifica preesistente. Al contrario, qualsiasi analisi dei dati decente richiederà una certa attenzione ai dati reali che sono stati acquisiti. I ricercatori che credono diversamente sono generalmente ricercatori che credono che il test di significatività sia l'inizio e la fine dell'analisi dei dati, con poco o nessun ruolo per statistiche descrittive, grafici, stima, previsione, selezione del modello, ecc. In tale impostazione, il requisito di fissare i propri piani analitici in anticipo ha più senso perché i modi convenzionali in cui pi valori calcolati richiedono che la dimensione del campione e i test da condurre siano decisi prima di vedere qualsiasi dato. Questo requisito ostacola l'analista, e quindi è uno dei tanti buoni motivi per non usare i test di significatività.

Potresti obiettare che consentire all'analista di scegliere cosa fare dopo aver visto i dati consente un overfitting. Lo fa, ma un buon analista mostrerà tutte le analisi condotte, dirà esplicitamente quali informazioni nei dati sono state usate per prendere decisioni analitiche e usa metodi come la validazione incrociata in modo appropriato. Ad esempio, è generalmente corretto ricodificare le variabili in base alla distribuzione dei valori ottenuta, ma scegliendo per qualche analisi i 3 predittori su 100 che hanno l'associazione osservata più vicina alla variabile dipendente significa che le stime dell'associazione saranno positive distorto, dal principio di regressione alla media. Se si desidera eseguire la selezione delle variabili in un contesto predittivo, è necessario selezionare le variabili all'interno delle pieghe di convalida incrociata o utilizzare solo i dati di addestramento.


2
Credo che molto di ciò che stai suggerendo rientri nel regno dell'analisi dei dati esplorativi (EDA), per il quale ho sostenuto metodi di analisi adattativa dei dati. Penso anche che l'EDA sia sottovalutata e debba ricevere più credito. Ma tutto ciò è ortogonale alla domanda attuale, che è "Questi autori ci hanno davvero permesso di riutilizzare ripetutamente i dati di validazione per la selezione del modello in un metodo statistico valido?" La tua ultima frase suggerisce che tu, come me, sei un po 'scettico su tali risultati.
Cliff AB,

Non credo, ad esempio, che la stima sia intrinsecamente esplorativa, no. Se hai un'ipotesi scientifica che afferma che la lunghezza massima di un coccodrillo deve essere di 12 piedi e provi a stimare la lunghezza massima di un coccodrillo per verificarlo, stai facendo un'analisi di conferma.
Kodiologo il

2
+1, nonostante tre downgrade esistenti. Sono d'accordo con il punto principale di questa risposta (la tua seconda frase), anche se sono pienamente consapevole che è piuttosto controverso. In generale, penso che la differenza tra l'analisi esplorativa e quella di conferma sia sopravvalutata; l'analisi della vita reale è spesso nel mezzo. Detto questo, non credo che tu abbia risposto (o abbia persino tentato di rispondere) alla domanda di OP che riguardava Dwork et al. carta.
ameba dice Reinstate Monica il

@amoeba "Non credo che tu abbia risposto (o abbia persino tentato di rispondere) alla domanda di OP che riguardava Dwork et al. paper" - Vero, anche se questo sembra comunque valere la pena di pubblicare una risposta perché mette in dubbio ciò che sembra essere un premessa della domanda.
Kodiologo,

2
+1 al commento di @ amoeba. Questo sarebbe stato un ottimo commento alla domanda, ma non è una risposta.
S. Kolassa - Ripristina Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.