Quali sono alcuni esempi di pratiche anacronistiche nelle statistiche?


55

Mi riferisco a pratiche che mantengono ancora la loro presenza, anche se i problemi (di solito computazionali) con cui sono stati progettati per far fronte sono stati per lo più risolti.

Ad esempio, la correzione della continuità di Yates è stata inventata per approssimare l'esatto test di Fisher con il test , ma non è più pratico poiché il software ora può gestire il test di Fisher anche con campioni di grandi dimensioni (so che questo potrebbe non essere un buon esempio di "mantenimento del suo presenza ", poiché i libri di testo, come l' analisi categorica dei dati di Agresti , spesso riconoscono che la correzione di Yates" non è più necessaria ").χ2

Quali sono alcuni altri esempi di tali pratiche?


In realtà non sono così sicuro che il test chi-quadrato sia stato reso obsoleto dalla disponibilità della potenza di calcolo per eseguire il test esatto di Fisher, ad esempio i tuoi margini sono davvero fissi? Vedi questa risposta ad un'altra domanda di @gung, per esempio. (Sono abbastanza sicuro che abbiamo un thread che discute il problema in modo più dettagliato, ma non riesco a trovarlo poiché abbiamo un sacco di domande "dovrei usare chi-quadrato o dovrei usare l'esatto test di Fisher" che vengono visualizzate quando Cerco!)
Silverfish,

@Silverfish: non intendevo reso obsoleto, solo la correzione di Yates era. Credo che gli studi abbiano dimostrato che la correzione di Yates è troppo conservativa quando i margini non sono fissi. L'articolo di Michael Haber The Continuity Correction and Statistical Testing ha fornito una recensione. χ2
Francis,


usando OLS invece di LAD?
PatrickT

5
@PatrickT: ho molti problemi a chiamare anacronistico OLS. Certo, ci sono casi speciali in cui LAD è chiaramente superiore ... ma lo stesso si può dire nella direzione opposta.
Cliff AB,

Risposte:


49

È fortemente discutibile che l'uso di livelli di significatività della soglia come o P = 0,01 sia una sbronza storica di un periodo in cui la maggior parte dei ricercatori dipendeva da tabelle di valori critici precedentemente calcolate. Ora un buon software fornirà direttamente i valori P. In effetti, un buon software ti consente di personalizzare le tue analisi e non dipendere dai test sui libri di testo.P=0.05P=0.01P

Ciò è controverso se non altro perché alcuni problemi di verifica della significazione richiedono decisioni, come nel controllo di qualità in cui l'accettazione o il rifiuto di un batch è la decisione necessaria, seguita da un'azione in entrambi i casi. Ma anche lì le soglie da utilizzare dovrebbero derivare da un'analisi del rischio, non dipendere dalla tradizione. E spesso nelle scienze, l'analisi delle indicazioni quantitative è più appropriata delle decisioni: pensare quantitativamente implica attenzione alle dimensioni dei valori e non solo a una dicotomia grezza, significativa rispetto a non significativa.P

Sottolineerò che qui tocco un problema complesso e controverso che è al centro di interi libri e probabilmente di migliaia di articoli, ma sembra un buon esempio di questo thread.


4
Ottimo esempio! Per riferimento, vale la pena menzionare questa discussione: per quanto riguarda i valori p, perché 1% e 5%? Perché non il 6% o il 10%?
Francis,

5
@ JM Sono fiducioso al 95% che tu abbia ragione, anche se non sono fiducioso al 99%.
Mark L. Stone,

5
α=0.038561

4
@CliffAB Non credo che il punto principale di un valore P esatto sia che decidi che costituisce il livello critico che vuoi adottare per una decisione. Certamente non lo sto suggerendo o proponendo. Parte dell'argomento qui non è solo che 0,05 e 0,01 sono ai migliori livelli convenzionali ma che i test forniscono un modo per valutare la forza dell'evidenza rispetto a un'ipotesi nulla piuttosto che prendere una decisione binaria. In pratica i livelli di 0,05 e 0,01 rimangono molto usati in molti campi.
Nick Cox,

4
@ Nick Cox E non dimenticare il livello 0.1 per la folla rilassata e tranquilla.
Mark L. Stone,

24

Un metodo su cui penso che molti visitatori di questo sito saranno d'accordo con me è la regressione graduale. È ancora fatto tutto il tempo, ma non devi cercare lontano esperti su questo sito dicendo deplorandone l'uso. Un metodo come LASSO è molto preferito.


4
HA !! Stai raccomandando la sostituzione di un anacronismo (regressione graduale) con l'anacronismo di prossima generazione (LASSO), che è un anacronismo a suo tempo, i cui aderenti non lo realizzano ancora. Vedi stats.stackexchange.com/questions/162861/… .
Mark L. Stone,

3
@ MarkL.Stone: Ehi amico, almeno sono 20 anni nella giusta direzione. Non conosco molto bene questi metodi, quindi dovrei leggerli prima di poter dare loro il mio appoggio.
Cliff AB,

2
Dopo aver letto rapidamente l'articolo, sono un po 'titubante nel decidere che LASSO è ufficialmente obsoleto, anche se chiaramente non è sempre la scelta ottimale. Forse tra 5 anni mi sentirò più a mio agio nel definire LASSO obsoleto.
Cliff AB,

2
@amoeba: Penso che Mark si riferisca alla pratica di usare LASSO come strumento per la migliore regressione del sottoinsieme. Ad esempio, ricordo vagamente di aver letto qualcuno che parlava prima di LASSO, e poi di aver modificato un modello non penalizzato usando i parametri di regressione diversi da zero. La migliore regressione del sottoinsieme può essere un modo più diretto per farlo (anche se come dici tu, non è chiaro che questa sia una buona idea anche se è ciò che l'analista vuole fare).
Cliff AB,

2
... e l'articolo presenta almeno una situazione (cioè la simulazione in base a determinati parametri) in cui chiaramente esegue LASSO, anche se penso che tutti sappiamo esattamente quanto seriamente dovremmo prendere tali risultati da soli.
Cliff AB,

17

La mia opinione è che almeno in econometria (applicata), è sempre più la norma usare la matrice di covarianza robusta o empirica piuttosto che la "pratica anacronistica" di affidarsi (asintoticamente) alla corretta specifica della matrice di covarianza. Questo ovviamente non è senza polemiche: vedi alcune delle risposte che ho collegato qui su CrossValidated, ma è certamente una tendenza chiara.

E[uu]=σ2In

Altri esempi includono i dati del panel, Imbens e Wooldridge scrivono ad esempio nelle loro diapositive delle lezioni che si oppongono all'utilizzo della matrice di covarianza di varianza degli effetti casuali (assumendo implicitamente una errata specificazione nella componente di varianza come predefinita):

σc2σu2

Utilizzando modelli lineari generalizzati (per distribuzioni che appartengono alla famiglia esponenziale), si consiglia spesso di utilizzare sempre il cosiddetto stimatore sandwich piuttosto che fare affidamento su ipotesi distributive corrette (la pratica anacronistica qui): vedere ad esempio questa risposta o riferimento a Cameron contare i dati perché la stima della probabilità pseudo-massima può essere abbastanza flessibile in caso di errata specificazione (ad es. usare Poisson se il binomio negativo sarebbe corretto).

Tali correzioni di errori standard [bianche] devono essere apportate per la regressione di Poisson, in quanto possono fare una differenza molto maggiore rispetto a correzioni di eteroschedasticità simili per OLS.

Greene scrive nel suo libro di testo nel capitolo 14 (disponibile sul suo sito Web) ad esempio con una nota critica e approfondisce i vantaggi e gli svantaggi di questa pratica:

C'è una tendenza nella letteratura attuale a calcolare questo stimatore [sandwich] di routine, indipendentemente dalla funzione di probabilità. * [...] * Sottolineiamo ancora una volta che lo stimatore sandwich, di per sé, non è necessariamente di alcun virtù se la funzione di probabilità non è specificata correttamente e le altre condizioni per lo stimatore M. non sono soddisfatte.


4
Interessante, ma la domanda è cosa sia anacronistico, non cosa sia ora sempre più standard, quindi la risposta deve essere invertita.
Nick Cox,

1
Ciao Nick, grazie per il tuo commento (e le tue modifiche), ho modificato il testo per evidenziare quale sia la pratica anacronistica, spero che diventi un po 'più chiaro. Non ho invertito l'intero testo, poiché la precedente pratica è vicina a non fare nulla di speciale sull'errore standard.
Arne Jonas Warnke,

In alcuni casi non è naturale e non è possibile utilizzare solide alternative, ad esempio serie storiche. Quindi penso che non stia diventando "più popolare", ma solo "più popolare in alcune aree".
Henry.L

13

m>1mm=1

m=30


Sono venuto qui per pubblicare questo. Inoltre: non sono convinto che ci sia una situazione in cui FWER sarebbe preferito ai metodi FDR ancora più recenti (a causa della scalabilità e adattabilità).
Alexis,

13

La maggior parte delle pratiche anacronistiche è probabilmente dovuta al modo in cui le statistiche vengono insegnate e al fatto che le analisi sono gestite da un numero enorme di persone che hanno frequentato solo un paio di lezioni di base. Insegniamo spesso un insieme di idee e procedure statistiche standard perché formano una sequenza logica di crescente sofisticazione concettuale che ha senso pedagogicamente (cfr. Come possiamo mai conoscere la varianza della popolazione? ). Sono anch'io colpevole di questo: di tanto in tanto insegno stat 101 e 102 e dico costantemente "c'è un modo migliore per farlo, ma va oltre lo scopo di questa classe". Per quegli studenti che non vanno oltre la sequenza introduttiva (quasi tutti), vengono lasciati con strategie di base, ma sostituite.

  1. Per un esempio di statistiche 101, probabilmente la pratica anacronistica più comune è testare alcune ipotesi e quindi eseguire un'analisi statistica tradizionale perché il test non era significativo. Un approccio più moderno / avanzato / difendibile sarebbe quello di utilizzare un metodo robusto per tale presupposto sin dall'inizio. Alcuni riferimenti per ulteriori informazioni:

  2. Per esempi di statistiche 102, qualsiasi numero di pratiche di modellazione è stato superato:

    • Yp
    • Y
    • Utilizzo di un polinomio di ordine superiore per catturare la curvatura rispetto alle spline cubiche.
    • pR2
    • Con dati di misure ripetute, categorizzare una variabile continua in modo che rmANOVA possa essere utilizzato o calcolare la media di misurazioni multiple rispetto a un modello misto lineare.
    • Eccetera.

Il punto in tutti questi casi è che le persone stanno facendo ciò che è stato insegnato per primo in una lezione introduttiva perché semplicemente non conoscono metodi più avanzati e appropriati.


5

Un esempio molto interessante sono i test di radice unitaria in econometria. Mentre ci sono molte scelte disponibili per testare o per una radice unitaria nel polinomio di ritardo di una serie temporale (ad es. Il Dickey Fuller Test (aumentato) o il test KPSS), il problema può essere completamente eluso quando si usa l'analisi bayesiana . Sims lo ha sottolineato nel suo provocatorio documento intitolato Understanding Unit Rooters: A Helicopter Tour del 1991.

I test di radice unitaria rimangono validi e utilizzati in econometria. Mentre personalmente attribuisco questo principalmente alle persone riluttanti ad adattarsi alle pratiche bayesiane, molti econometrici conservatori difendono la pratica dei test delle radici unitarie affermando che una visione bayesiana del mondo contraddice la premessa della ricerca econometrica. (Cioè, gli economisti pensano al mondo come un luogo con parametri fissi, non parametri casuali che sono governati da un qualche iperparametro.)


5
Sarei interessato a una breve discussione su come le pratiche bayesiane aggirino questi test. In altre parole, come valuteresti questa affermazione?
Mike Hunter,

Devo ammettere che è passato un po 'di tempo da quando ho letto il documento, ma il punto principale è che usando un piano precedente per l'analisi bayesiana di una serie temporale, si possono usare i valori t standard.
Jeremias K,

5

Pagamento delle tasse di licenza per sistemi software statistici di alta qualità. #R


1

Insegnare / condurre test a due code per la differenza senza testare simultaneamente l' equivalenza nel regno frequentista dei test di ipotesi è un impegno profondo per il bias di conferma .

C'è qualche sfumatura, in quanto un'appropriata analisi della potenza con una ponderata definizione della dimensione dell'effetto può difendersi da ciò e fornire più o meno gli stessi tipi di inferenze, ma (a) le analisi di potenza sono così spesso ignorate nella presentazione dei risultati, e (b) I non ho mai visto un'analisi di potenza per, ad esempio, ogni coefficiente stimato per ogni variabile in una regressione multipla, ma è semplice farlo per i test combinati di differenza e i test di equivalenza (cioè test di pertinenza).


0

Utilizzando un modello binomiale negativo piuttosto che un (robusto) modello di Poisson per identificare un parametro di interesse in una variabile di conteggio, solo perché c'è un'eccessiva dispersione?

Vedi come riferimento: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

La dimostrazione che Poisson è più solida nel caso degli effetti fissi è abbastanza recente in quanto è stata fatta riferimento a: Wooldridge, JM, "Stima senza distribuzione di alcuni modelli di dati di pannelli non lineari", Journal of Econometrics 90 (1999), 77-97.


-6

Ecco alcuni anacronismi:

  • L'ipotesi neoplatonica che esista una sola, "vera" popolazione là fuori nell'etere teorico che è eterno, fisso e immobile rispetto al quale i nostri campioni imperfetti possono essere valutati, fa ben poco per far progredire l'apprendimento e la conoscenza.

  • Il riduzionismo insito in mandati come Occam's Razor non è coerente con i tempi. O può essere sintetizzato come "Tra le ipotesi concorrenti, dovrebbe essere selezionato quello con il minor numero di ipotesi". Le alternative includono il Principio delle spiegazioni multiple di Epicuro , che afferma approssimativamente: "Se più di una teoria è coerente con i dati, conservali tutti".

  • L'intero sistema di peer review ha un disperato bisogno di una revisione.

* Modificare *

  • Con enormi quantità di dati contenenti decine di milioni di funzionalità, non è più necessaria una fase di selezione variabile.

  • Inoltre, le statistiche inferenziali sono insignificanti.


I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.