Regole empiriche per statistiche "moderne"


85

Mi piace il libro di G van Belle sulle Regole empiriche statistiche e, in misura minore, Errori comuni in statistica (e come evitarli) di Phillip I Good e James W. Hardin. Risolvono insidie ​​comuni nell'interpretazione dei risultati di studi sperimentali e osservazionali e forniscono raccomandazioni pratiche per inferenze statistiche o analisi di dati esplorativi. Ma ritengo che le linee guida "moderne" siano in qualche modo carenti, specialmente con l'uso sempre crescente di statistiche computazionali e solide in vari campi o l'introduzione di tecniche della comunità dell'apprendimento automatico, ad esempio la biostatistica clinica o l'epidemiologia genetica.

A parte i trucchi computazionali o le insidie ​​comuni nella visualizzazione dei dati che potrebbero essere affrontate altrove, vorrei chiedere: quali sono le principali regole empiriche che consiglieresti per un'analisi dei dati efficiente? ( una regola per risposta, per favore ).

Sto pensando a linee guida che potresti fornire a un collega, un ricercatore senza un forte background nella modellistica statistica o uno studente nel corso intermedio o avanzato. Ciò potrebbe riguardare varie fasi dell'analisi dei dati, ad esempio strategie di campionamento, selezione delle caratteristiche o costruzione del modello, confronto dei modelli, post-stima, ecc.

Risposte:


62

Non dimenticare di fare alcuni controlli di base dei dati prima di iniziare l'analisi. In particolare, guarda un diagramma a dispersione di ogni variabile che intendi analizzare rispetto al numero ID, alla data / ora della raccolta dei dati o simili. L'occhio può spesso rilevare schemi che rivelano problemi quando le statistiche riassuntive non mostrano nulla di insolito. E se hai intenzione di utilizzare un registro o un'altra trasformazione per l'analisi, usalo anche per la trama.


6
L'ho imparato a mie spese. Due volte.
onestop il

2
Sì! Guarda prima di saltare. Per favore, guarda i dati.
vqv

7
L'ispezione visiva dei dati può gonfiare l'errore di tipo I se le decisioni vengono prese post-hoc. Tendo a eseguire analisi di conferma in quanto prespecificate e includono risultati che sono stati influenzati dall'ispezione come analisi esplorativa o di sensibilità.
AdamO,

51

Mantieni la tua analisi riproducibile. Un revisore o il tuo capo o qualcun altro alla fine ti chiederà come sei arrivato esattamente al tuo risultato, probabilmente sei mesi o più dopo aver effettuato l'analisi. Si Non ricordate come l'avete ripulito i dati, quello che l'analisi che hai fatto, perché avete scelto il modello specifico è stato utilizzato ... E ricostruire tutto questo è un dolore.

Corollario: usa un linguaggio di scripting di qualche tipo, inserisci commenti nei tuoi script di analisi e conservali. Quello che usi (R, SAS, Stata, qualunque cosa) è meno importante che avere uno script completamente riproducibile. Rifiuta gli ambienti in cui ciò è impossibile o imbarazzante.


24
Se intendi utilizzare R, ti consiglio di incorporare il tuo codice R in un documento Sweave che produce il tuo rapporto. In questo modo il codice R rimane nel report.
John D. Cook,

36

Non c'è pranzo libero

Gran parte dei fallimenti statistici viene creata facendo clic su un grande pulsante lucido chiamato "Calcola significato" senza tener conto del suo carico di ipotesi nascoste.

Ripetere

Anche se è coinvolta una singola chiamata a un generatore casuale, si può avere fortuna o sfortuna e quindi saltare a conclusioni errate.


29

Una regola per risposta ;-)

Parla con lo statistico prima di condurre lo studio. Se possibile, prima di richiedere la sovvenzione. Aiutalo a capire il problema che stai studiando, ottieni il suo contributo su come analizzare i dati che stai per raccogliere e pensa a cosa significhi per il tuo progetto di studio e i requisiti dei dati. Forse il ragazzo / ragazza delle statistiche suggerisce di fare un modello gerarchico per tenere conto di chi ha diagnosticato i pazienti, quindi è necessario tenere traccia di chi ha diagnosticato chi. Sembra banale, ma è molto meglio pensarci prima di raccogliere dati (e non riuscire a raccogliere qualcosa di cruciale) che in seguito.

Su una nota correlata: eseguire un'analisi di potenza prima di iniziare. Niente è frustrante come non aver preventivato una dimensione del campione sufficientemente grande. Nel pensare alle dimensioni dell'effetto che ti aspetti, ricorda il bias della pubblicazione: la dimensione dell'effetto che troverai sarà probabilmente inferiore a quella che ti aspettavi data la letteratura (distorta).


28

Una cosa che dico ai miei studenti è quella di produrre un grafico appropriato per ogni valore p. ad esempio, un diagramma a dispersione se verificano la correlazione, i grafici a riquadro affiancati se eseguono un ANOVA a senso unico, ecc.


28

Se stai decidendo tra due modi di analizzare i tuoi dati, provalo in entrambi i modi e vedi se fa la differenza.

Questo è utile in molti contesti:

  • Trasformare o non trasformare
  • Test non parametrico o parametrico
  • Correlazione di Spearman o Pearson
  • PCA o analisi fattoriale
  • Se utilizzare la media aritmetica o una stima attendibile della media
  • Se includere o meno una covariata
  • Se utilizzare la cancellazione in base all'elenco, la cancellazione in coppia, l'imputazione o altri metodi di sostituzione dei valori mancanti

Ciò non dovrebbe assolvere uno dal pensare attraverso il problema, ma almeno dà un senso del grado in cui i risultati sostanziali sono solidi per la scelta.


4
È una citazione? Mi chiedo solo come provare procedure di test alternative (non strategie di analisi!) Non possa in qualche modo interrompere il controllo dell'errore di tipo I o il calcolo iniziale della potenza. So che SAS restituisce sistematicamente risultati da test parametrici e non parametrici (almeno nel confronto di due campioni di medie e ANOVA), ma trovo sempre questo intrigante: non dovremmo decidere prima di vedere i risultati quale test dovrebbe essere applicato?
chl

4
@chl buon punto. Concordo sul fatto che la regola empirica di cui sopra può essere utilizzata per motivi errati. Vale a dire, provare le cose in diversi modi e riportare solo il risultato che dà la risposta più piacevole. Vedo la regola empirica utile come uno strumento di formazione per analisti di dati al fine di apprendere l'effetto delle decisioni di analisi su conclusioni sostanziali. Ho visto molti studenti perdersi nelle decisioni, in particolare dove ci sono consigli contrastanti in letteratura (ad esempio, per trasformare o non trasformare) che spesso hanno un'influenza minima sulle conclusioni sostanziali.
Jeromy Anglim,

1
@chl no non è un preventivo. Ma ho pensato che fosse bello delimitare la regola empirica dalla sua logica e avvertenze. L'ho cambiato in grassetto per chiarirlo.
Jeromy Anglim,

1
Ok, per me ha senso provare diverse trasformazioni e cercare se fornisce un modo migliore per spiegare le relazioni studiate; quello che non capisco è provare diverse strategie di analisi, sebbene sia pratica corrente (ma non riportata negli articoli pubblicati :-), esp. quando si basano su presupposti diversi (in EFA vs. PCA, si assume un termine di errore aggiuntivo; nei test non parametrici vs. parametrici, si getta via parte dei presupposti, ecc.). Ma sono d'accordo che la demarcazione tra analisi esplorativa e di conferma non è così chiara ...
chl

2
Questo mi sembra utile solo per l'analisi esplorativa o durante le fasi di addestramento e convalida. Avrai sempre bisogno di una fase di verifica finale o altrimenti potresti ingannarti con alcuni risultati significativi che funzionano bene una volta ottenuta la differenza desiderata in base alle tue convinzioni "soggettive" . Chi giudica quale metodo funziona meglio? Personalmente, se dubito di metodi diversi, allora lo collaudo su dati simulati, al fine di testare cose come varianza di stimatori o robustezza, ecc.
Sextus Empiricus

22

Metti in discussione i tuoi dati. Nell'era moderna della RAM economica, lavoriamo spesso su grandi quantità di dati. Un errore "dito grasso" o "posizione decimale persa" può facilmente dominare un'analisi. Senza un certo controllo di integrità di base (o tracciare i dati, come suggerito da altri qui) si può perdere molto tempo. Ciò suggerisce anche l'uso di alcune tecniche di base per la "robustezza" degli outlier.


2
Corollario: controlla se qualcuno ha codificato un valore mancante come "9999" anziché "NA". Se il tuo software utilizza questo valore al valore nominale, rovinerà la tua analisi.
S. Kolassa - Ripristina Monica il

21

Utilizzare un software che mostra la catena della logica di programmazione dai dati grezzi fino alle analisi / risultati finali. Evita software come Excel in cui un utente può commettere un errore non rilevabile in una cella, che verrà rilevato solo dal controllo manuale.


1
VisTrails è un sistema che aiuta questo processo. (Ho usato solo sistemi homebrew; gli obiettivi di gruppo comuni sono più importanti di un particolare strumento.)
denis,

18

Chiediti sempre "cosa significano questi risultati e come verranno utilizzati?"

Di solito lo scopo dell'utilizzo delle statistiche è di aiutare a prendere decisioni in condizioni di incertezza. Quindi è importante avere in testa "Quali decisioni verranno prese a seguito di questa analisi e in che modo questa analisi influenzerà queste decisioni?" (ad esempio pubblicare un articolo, raccomandare di utilizzare un nuovo metodo, fornire $ X in finanziamenti a Y, ottenere più dati, riportare una quantità stimata come E, ecc. ecc. .....)

Se non ritieni che ci sia alcuna decisione da prendere, allora ci si chiede perché stai facendo l'analisi in primo luogo (poiché è piuttosto costoso fare analisi). Penso alle statistiche come a un "fastidio" in quanto è un mezzo per un fine, piuttosto che un fine stesso. A mio avviso, quantificiamo l'incertezza solo in modo da poterla utilizzare per prendere decisioni che spiegano tale incertezza in modo preciso.

Penso che questo sia uno dei motivi per cui mantenere le cose semplici è una buona politica in generale, perché di solito è molto più facile mettere in relazione una soluzione semplice al mondo reale (e quindi all'ambiente in cui viene presa la decisione) rispetto alla soluzione complessa . Di solito è anche più facile comprendere i limiti della risposta semplice. Passa quindi alle soluzioni più complesse quando comprendi i limiti della soluzione semplice e in che modo quella complessa li affronta.


3
Sono d'accordo con tutto tranne che sull'idea di mantenere le cose semplici. Per me la semplicità o la complessità dovrebbero essere una funzione del costo di una decisione impropria che hai eloquentemente spiegato. La semplicità può avere costi trascurabili in un'area (ad es. Pubblicare l'annuncio sbagliato a un cliente) e un costo enormemente diverso in un'altra (amministrare un trattamento sbagliato a un paziente).
Thomas Speidel,

18

Può esserci un lungo elenco, ma per citarne alcuni: (in nessun ordine specifico)

  1. Il valore P NON è probabilità. In particolare, non è la probabilità di commettere un errore di tipo I. Allo stesso modo, gli elementi della configurazione non hanno un'interpretazione probabilistica per i dati dati. Sono applicabili per esperimenti ripetuti.

  2. I problemi relativi alla varianza dominano il bias il più delle volte in pratica, quindi una stima distorta con una varianza ridotta è migliore di una stima imparziale con una varianza elevata (la maggior parte delle volte).

  3. Il fitting del modello è un processo iterativo. Prima di analizzare i dati capire la fonte dei dati e i possibili modelli che si adattano o non si adattano alla descrizione. Inoltre, prova a modellare eventuali problemi di progettazione nel tuo modello.

  4. Utilizzare gli strumenti di visualizzazione, esaminare i dati (per possibili anomalie, tendenze evidenti ecc. Ecc. Per comprendere i dati) prima di analizzarli. Utilizzare i metodi di visualizzazione (se possibile) per vedere come il modello si adatta a tali dati.

  5. Ultimo ma non meno importante, usa il software statistico per quello per cui sono fatti (per facilitare il tuo compito di calcolo), non sostituiscono il pensiero umano.


14
L'articolo 1 non è corretto: il valore P è la probabilità di ottenere dati estremi o più estremi, data l'ipotesi nulla. Per quanto ne so ciò significa che P è una probabilità - condizionale ma comunque una probabilità. La tua affermazione è corretta nelle circostanze in cui si sta lavorando all'interno del paradigma degli errori Neyman-Pearson, ma non si sta lavorando all'interno del paradigma dei Pescatori in cui i valori di P sono idici di prova contro l'ipotesi nulla. È vero che i paradigmi vengono regolarmente mescolati in un miscuglio incoerente, ma entrambi sono "corretti" se usati da soli e intatti.
Michael Lew,

2
Per gli intervalli di confidenza sei, di nuovo, corretto solo entro i confini degli intervalli di confidenza neymaniani. Fisher (e altri prima di lui) hanno anche ideato e usato cose che si interpreterebbero come intervalli di confidenza, e c'è un'interpretazione perfettamente valida di tali intervalli che si riferiscono al particolare esperimento che produce l'intervallo. Secondo me, sono di gran lunga preferibili a quelli di Neyman. Vedi la mia risposta alla domanda Funzioni discrete: copertura dell'intervallo di confidenza? per maggiori dettagli: stats.stackexchange.com/questions/8844/…
Michael Lew

@Michael hai ragione, ma vediamo: quante volte è corretto il Null? O meglio: qualcuno può provare se il null è corretto? Possiamo anche avere profondi dibattiti filosofici su questo, ma non è questo il punto. Nel controllo della qualità le ripetizioni hanno un senso, ma nella scienza ogni regola della buona decisione deve condizionare i dati.
suncoolsu,

1
Fisher lo sapeva (condizionamento sui dati osservati e l'osservazione sul controllo di qualità si basa su quello). Ha prodotto molti contro esempi basati su questo. Bayesian ha combattuto su questo, diciamo, per più di mezzo secolo.
suncoolsu,

1
@Michael Scusate se non ero abbastanza chiaro. Tutto quello che volevo dire: il valore P è una probabilità SOLO quando il null è vero, ma il più delle volte null NON è vero (come in: non ci aspettiamo mai che sia vero; assumiamo che sia vero, ma la nostra ipotesi è praticamente errata.) Nel caso in cui tu sia interessato, posso evidenziare alcune pubblicazioni che trattano questa idea in modo più dettagliato. μ=0
suncoolsu,

13

Per l'organizzazione / gestione dei dati, assicurarsi che quando si generano nuove variabili nel set di dati (ad esempio, il calcolo dell'indice di massa corporea da altezza e peso), le variabili originali non vengano mai eliminate. Un approccio non distruttivo è il migliore dal punto di vista della riproducibilità. Non si sa mai quando è possibile immettere erroneamente un comando e successivamente è necessario ripetere la generazione della variabile. Senza le variabili originali, perderai molto tempo!


11

Pensa attentamente al processo di generazione dei dati (DGP) sottostante. Se il modello che si desidera utilizzare non riflette il DGP, è necessario trovare un nuovo modello.


Come fai a sapere, come puoi sapere cos'è il DGP. Ad esempio, gestisco serie temporali in un'area in cui devo ancora vedere una teoria ben sviluppata (perché si verificano determinati tipi di spesa pubblica). Non credo sia possibile conoscere il vero processo in questo caso.
user54285

8

Per gli istogrammi, una buona regola empirica per il numero di bin in un istogramma :

radice quadrata del numero di punti dati


6

Nonostante set di dati sempre più grandi e software più potente, i modelli di adattamento eccessivo rappresentano un grave pericolo per i ricercatori, in particolare quelli che non sono ancora stati bruciati da un adattamento eccessivo. Un eccesso di adattamento significa che hai inserito qualcosa di più complicato dei tuoi dati e dello stato dell'arte. Come l'amore o la bellezza, è difficile da definire, figuriamoci da definire formalmente, ma più facile da riconoscere.

Una regola empirica minima è di 10 punti dati per ogni parametro stimato per qualcosa di simile alla regressione classica e fai attenzione alle conseguenze se lo ignori. Per altre analisi, di solito è necessario molto di più per fare un buon lavoro, in particolare se ci sono categorie rare nei dati.

Anche se puoi adattare facilmente un modello, dovresti preoccuparti costantemente di cosa significhi e di quanto sia riproducibile anche con un set di dati molto simile.


Questo è generalmente visto come una regola empirica per i modelli in cui la risposta è condizionatamente normale. In altri casi, è troppo liberale. Ad esempio, per la classificazione binaria, la regola empirica corrispondente sarebbe 15 osservazioni nella categoria meno frequente per ogni variabile; e per l'analisi di sopravvivenza, sarebbero 10 eventi (cioè, dati non censurati) per ogni variabile.
gung - Ripristina Monica

Sono d'accordo. Modificherò, ma perché non pubblicare la tua regola empirica insieme a un commento esteso.
Nick Cox,

1
Dovresti evidenziare l'ultima frase "Anche se puoi adattare facilmente un modello, dovresti preoccuparti costantemente di ciò che significa e di quanto sia riproducibile con un set di dati anche molto simile."
Sesto Empirico

6

Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Yt+h
  2. Yt+hYt

Yt+hYt+Xt


5

Se il modello non converge facilmente e rapidamente, potrebbe essere colpa del software. È, tuttavia, molto più comune che i tuoi dati non siano adatti al modello o che il modello non sia adatto ai dati. Potrebbe essere difficile dire quale, e gli empiristi e i teorici possono avere opinioni diverse. Ma pensare in materia, guardare davvero i dati e pensare costantemente all'interpretazione del modello aiuta il più possibile. Soprattutto, prova un modello più semplice se uno complicato non converge.

Non vi è alcun vantaggio nel forzare la convergenza o nel dichiarare la vittoria e ottenere risultati dopo molte iterazioni, ma prima che il tuo modello sia realmente convergente. Nel migliore dei casi ti prendi in giro se lo fai.


"davvero guardando i dati" sarebbe così bello quando otteniamo un NN che fa questo lavoro per noi.
Sesto Empirico

Si chiamava JWT.
Nick Cox,

5

Nella regressione delle variabili strumentali controlla sempre il significato congiunto dei tuoi strumenti. La regola empirica di Staiger-Stock afferma che una statistica F inferiore a 10 è preoccupante e indica che i tuoi strumenti potrebbero essere deboli, cioè non sono sufficientemente correlati con la variabile endogena. Tuttavia, ciò non implica automaticamente che una F superiore a 10 garantisca strumenti forti. Staiger e Stock (1997) hanno dimostrato che tecniche di variabili strumentali come la 2SLS possono essere fortemente distorte in campioni "piccoli" se gli strumenti sono solo debolmente correlati con la variabile endogena. Il loro esempio è stato lo studio di Angrist e Krueger (1991) che ha avuto più di 300.000 osservazioni, un fatto inquietante sulla nozione di "piccoli" campioni.


Ho aggiunto il link all'articolo ma credo che questa risposta stull abbia bisogno di ulteriori formattazioni, ho trovato troppo difficile enfatizzare la 'regola empirica' basata sulla scansione dell'articolo molto rapidamente e questa risposta non è molto intuitiva.
Sesto Empirico

3

Non ci sono criteri per scegliere criteri di informazione.

Una volta che qualcuno dice qualcosa come "L'IC? Lo indica, ma è noto spesso per dare i risultati sbagliati" (dove? C'è una lettera che ti piace), sai che dovrai anche pensare al modello e in particolare se rende senso scientifico o pratico.

Nessuna algebra può dirtelo.


2

L'ho letto da qualche parte (probabilmente su cross validato) e non sono stato in grado di trovarlo da nessuna parte, quindi ecco qui ...

Se hai scoperto un risultato interessante, probabilmente è sbagliato.

È molto facile essere eccitati dalla prospettiva di un incredibile valore p o di un errore di convalida incrociata quasi perfetto. Personalmente ho presentato in modo estatico risultati (falsi) straordinari ai colleghi solo per doverli ritrarre. Molto spesso, se sembra troppo bello per essere vero ...

'contaminazione vera. 'Per niente vero.


2

Cerca di essere valoroso piuttosto che virtuoso Cioè, non lasciare che piccoli segni di non-Normalità, non-indipendenza o non-linearità ecc. Blocchino la tua strada se tali indicazioni devono essere ignorate per far sì che i dati parlino forte e chiaro . - In danese, "dristig" vs. "dydig" sono gli aggettivi.


1

Quando si analizzano i dati longitudinali, assicurarsi che le variabili siano codificate allo stesso modo in ogni periodo di tempo.

Mentre scrivevo la mia tesi, che comportava l'analisi dei dati secondari, ci fu una settimana circa di totale confusione di uno spostamento di 1 unità nei punteggi della depressione media attraverso una media altrimenti stabile per anno: si è scoperto che quello di uno degli anni nel mio set di dati, gli elementi in scala per uno strumento validato sono stati codificati 1–4 anziché 0–3.


1

La tua ipotesi dovrebbe guidare la tua scelta del modello, non viceversa.

Per parafrasare Maslow, se sei un martello, tutto sembra un chiodo. I modelli specifici vengono forniti con paraocchi e ipotesi sul mondo integrati: per esempio i modelli non dinamici soffocano sul feedback dei risultati del trattamento.


1

Usa la simulazione per verificare dove la struttura del tuo modello potrebbe creare "risultati" che sono semplicemente artefatti matematici delle ipotesi del tuo modello

Esegui le tue analisi su variabili randomizzate o su variabili simulate note per non essere correlate tra loro. Fai questo molte volte e confronta le stime dei punti mediate (e la fiducia o gli intervalli credibili) con i risultati che ottieni su dati reali: sono tutti così diversi?


0

Sono un analista di dati piuttosto che uno statistico, ma questi sono i miei suggerimenti.

1) Prima di analizzare i dati, assicurati che le ipotesi del tuo metodo siano corrette. Una volta visualizzati i risultati, può essere difficile dimenticarli anche dopo aver risolto i problemi e i risultati cambiano.

2) Aiuta a conoscere i tuoi dati. Gestisco serie storiche e ho ottenuto un risultato che aveva poco senso dati dati degli ultimi anni. Ho esaminato i metodi alla luce di ciò e ho scoperto che la media dei modelli nel metodo stava distorcendo i risultati per un periodo (e si era verificata un'interruzione strutturale).

3) Prestare attenzione alle regole empiriche. Riflettono le esperienze dei singoli ricercatori dai loro dati e se il loro campo è molto diverso dal tuo le loro conclusioni potrebbero non essere corrette per i tuoi dati. Inoltre, e questo è stato uno shock per me, gli statistici spesso non sono d'accordo su punti chiave.

4) Prova ad analizzare i dati con metodi diversi e verifica se i risultati sono simili. Capire che nessun metodo è perfetto e fare attenzione a verificare quando è possibile la violazione delle ipotesi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.