Perché statistiche solide (e resistenti) non hanno sostituito le tecniche classiche?


82

Quando si risolvono i problemi aziendali utilizzando i dati, è comune che almeno un'ipotesi chiave secondo cui le statistiche classiche sottostanti non siano valide. Il più delle volte, nessuno si preoccupa di controllare quei presupposti in modo da non saperlo mai.

Ad esempio, il fatto che molte delle metriche web più comuni siano "long tail" (rispetto alla distribuzione normale) è ormai così ben documentato che lo diamo per scontato. Un altro esempio, le comunità online - anche nelle comunità con migliaia di membri, è ben documentato che la quota di gran lunga maggiore di contributo / partecipazione in molte di queste comunità è attribuibile a un minuscolo gruppo di "super-contributori". (Ad esempio, pochi mesi fa, subito dopo che l'API SO è stata resa disponibile in versione beta, un membro StackOverflow ha pubblicato una breve analisi dei dati raccolti tramite l'API; la sua conclusione: meno dell'uno percento dell'account dei membri SO per la maggior parte di l'attività su SO (presumibilmente ponendo domande e rispondendo a loro), un altro 1-2% ha rappresentato il resto e la stragrande maggioranza dei membri non fa nulla).

Le distribuzioni di quel tipo - sempre più spesso la regola piuttosto che l'eccezione - sono spesso modellate al meglio con una funzione di densità della legge di potenza . Per questo tipo di distribuzioni, anche il teorema del limite centrale è problematico da applicare.

Quindi, data l'abbondanza di popolazioni come questa di interesse per gli analisti, e dato che i modelli classici hanno prestazioni scarsamente dimostrabili su questi dati, e dato che metodi robusti e resistenti sono in circolazione da un po 'di tempo (almeno 20 anni, credo) - perché non vengono usati più spesso? (Sto anche chiedendo il motivo per cui io non li uso più spesso, ma che non è proprio una domanda per CrossValidated .)

Sì, so che ci sono capitoli di libri di testo interamente dedicati a statistiche affidabili e so che ci sono (alcuni) pacchetti R ( robustbase è quello con cui ho familiarità e utilizzo), ecc.

Eppure, visti gli ovvi vantaggi di queste tecniche, spesso sono chiaramente gli strumenti migliori per il lavoro: perché non vengono utilizzati molto più spesso ? Non dovremmo aspettarci di vedere statistiche solide (e resistenti) usate molto più spesso (forse anche presuntivamente) rispetto agli analoghi classici?

L'unica spiegazione sostanziale (cioè tecnica) che ho sentito è che le tecniche robuste (anche per i metodi resistenti) mancano del potere / sensibilità delle tecniche classiche. Non so se questo sia effettivamente vero in alcuni casi, ma so che non è vero in molti casi.

Un'ultima parola di prelazione: sì, so che questa domanda non ha un'unica risposta dimostrabilmente corretta; fanno pochissime domande su questo sito. Inoltre, questa domanda è una vera richiesta; non è un pretesto per avanzare un punto di vista - non ho un punto di vista qui, solo una domanda per la quale spero in alcune risposte perspicaci.


12
Il Black Swann di Nassim Nicholas Taleb spiega perché i modelli semplici sono stati utilizzati nel mondo finanziario e i pericoli che ciò ha portato. Un errore particolare è equiparare le probabilità molto basse a zero e applicare ciecamente la normale distribuzione nella gestione del rischio!
James,

9
I test basati su molti presupposti sono più potenti quando tali presupposti sono soddisfatti. Siamo in grado di verificare il significato della deviazione ipotizzando che le osservazioni siano IID gaussiane, che indica media come statistica. Un insieme meno restrittivo di ipotesi ci dice di usare la mediana. Possiamo andare oltre e supporre che le osservazioni siano correlate per ottenere ancora più solidità. Ma ogni passaggio riduce la potenza del nostro test e se non facciamo alcuna ipotesi, il nostro test è inutile. Test efficaci implicitamente fanno ipotesi sui dati e sono migliori dei classici solo quando tali assunzioni si adattano meglio alla realtà
Yaroslav Bulatov,

Risposte:


69

I ricercatori vogliono valori p piccoli e puoi ottenere valori p più piccoli se usi metodi che fanno ipotesi distributive più forti. In altre parole, i metodi non robusti consentono di pubblicare più articoli. Naturalmente molti di questi articoli possono essere falsi positivi, ma una pubblicazione è una pubblicazione. Questa è una spiegazione cinica, ma a volte è valida.


4
"a volte" è un eufemismo ... la logica degli autori non è spesso così diretta ma lo scenario di stimolo / ricompensa è tale che le persone lo faranno come una questione di condizionamento
Giovanni

2
Non credo che i ricercatori siano disonesti tanto quanto agire per ignoranza. Non capiscono cosa significano le statistiche o quali ipotesi richiedono, ma come hai detto capiscono chiaramente lo stimolo / premio: p> 0,05 => nessuna pubblicazione.
John D. Cook,

10
È inoltre necessario presentare qualcosa che i "al potere" (decisori, supervisori, revisori) comprendono. Pertanto deve essere nella lingua comune che si evolve abbastanza lentamente, poiché quelle persone tendono ad essere più vecchie e più resistenti ai cambiamenti, in gran parte poiché potrebbero invalidare la loro carriera fino ad ora!
James,

12
Buon punto. "Capisco i valori p. Dammi solo un valore p." Ironia della sorte, probabilmente non capiscono i valori p, ma questa è un'altra questione.
John D. Cook,

2
Non credo sia categoricamente vero. Almeno, ho sentito che le nonparametriche moderne spesso sacrificano pochissimo potere, se presente. AFAIK, la perdita di potenza è più pronunciata nei test che comportano trasformazioni di rango, che sono difficilmente onnipresenti tra i metodi robusti.
Nick Stauner,

42

Quindi i "modelli classici" (qualunque essi siano - suppongo che intendi qualcosa di simile a modelli semplici insegnati nei libri di testo e stimati da ML) falliscono su alcuni, forse molti, set di dati del mondo reale.

Se un modello fallisce, esistono due approcci di base per risolverlo:

  1. Fai meno ipotesi (meno modello)
  2. Fai più ipotesi (più modello)

Statistiche solide, quasi verosimiglianza e approcci GEE adottano il primo approccio modificando la strategia di stima in una in cui il modello non è valido per tutti i punti di dati (solido) o non è necessario caratterizzare tutti gli aspetti dei dati (QL e GEE).

L'alternativa è quella di provare a costruire un modello che modella esplicitamente la fonte di punti di dati contaminanti o gli aspetti del modello originale che sembrano essere falsi, mantenendo il metodo di stima lo stesso di prima.

Alcuni preferiscono intuitivamente il primo (è particolarmente popolare in economia), e alcuni preferiscono intuitivamente il secondo (è particolarmente popolare tra i bayesiani, che tendono ad essere più felici con modelli più complessi, in particolare una volta che si rendono conto che useranno strumenti di simulazione per inferenza comunque).

Le ipotesi distributive dalla coda grassa, per esempio usando il binomio negativo anziché il poisson o il t piuttosto che il normale, appartengono alla seconda strategia. La maggior parte delle cose etichettate come "statistiche affidabili" appartengono alla prima strategia.

In pratica, ricavare stimatori per la prima strategia per problemi realisticamente complessi sembra essere piuttosto difficile. Non che sia una ragione per non farlo, ma forse è una spiegazione del perché non viene fatto molto spesso.


4
+1. Ottima spiegazione Penso anche che alcuni metodi "robusti" siano piuttosto ad hoc (mezzi troncati) e che "robusto" sia legato a un aspetto particolare di un metodo e non sia una qualità generale, ma molte persone interpretano "robusto" nel senso di "I don non devo preoccuparmi dei miei dati, dato che il mio metodo è solido ".
Wayne,

Bella risposta. Mi preoccupa il fatto che così tante risposte si concentrino sulla difficoltà di comprendere statistiche affidabili o sugli incentivi per ignorare la violazione delle ipotesi. Ignorano le persone là fuori che sanno che ci sono casi in cui sono necessarie statistiche affidabili e quando non lo sono.
Kenji,

29

Suggerirei che è un ritardo nell'insegnamento. Molte persone imparano le statistiche al college o all'università. Se la statistica non è la tua prima laurea e invece ha conseguito una laurea in matematica o informatica, probabilmente coprirai solo i moduli statistici fondamentali:

  1. Probabilità
  2. Controllo di un'ipotesi
  3. Regressione

Ciò significa che di fronte a un problema si tenta di utilizzare ciò che si conosce per risolvere il problema.

  • I dati non sono normali: accetta i registri.
  • I dati hanno fastidiosi valori anomali: rimuovili.

A meno che non vi imbattiate in qualcos'altro, allora è difficile fare qualcosa di meglio. È davvero difficile usare Google per trovare qualcosa se non sai come si chiama!

Penso che con tutte le tecniche ci vorrà del tempo prima che le nuove tecniche filtrino. Quanto tempo ci sono voluti test di ipotesi standard per far parte di un curriculum statistico standard?

A proposito, con una laurea in statistica ci sarà ancora un ritardo nell'insegnamento - solo uno più breve!


4
Ma ciò solleva un interessante problema pedagogico, almeno in Psicologia, perché, per quanto ne so, la maggior parte dei libri di statistica introduttiva utilizzati nel mio campo non discute davvero di misure solide, se non a parte.
Russellpierce,

3
È vero, e anche in psicologia, c'è una fastidiosa confusione tra non parametrico e non normale, che sembra ostacolare la comprensione.
richiemorrisroe,

2
Alcuni di noi psicologi sono solo confusi su tutto ciò che è statistico! :)
Nick Stauner,

21

Chiunque sia addestrato nell'analisi dei dati statistici a un livello ragionevole utilizza regolarmente i concetti di statistiche affidabili. La maggior parte dei ricercatori conosce abbastanza per cercare gravi valori anomali ed errori di registrazione dei dati; la politica di rimozione di punti di dati sospetti risale al XIX secolo con Lord Rayleigh, GG Stokes e altri della loro età. Se la domanda è:

Perché i ricercatori non usano i metodi più moderni per calcolare stime di posizione, scala, regressione, ecc.?

allora la risposta è data sopra - i metodi sono stati ampiamente sviluppati negli ultimi 25 anni, diciamo 1985-2010. Il ritardo per l'apprendimento di nuovi fattori in fattori, così come l'inerzia aggravata dal "mito" in cui non c'è nulla di sbagliato usando ciecamente metodi classici. John Tukey commenta che i metodi robusti / resistenti che usi non sono importanti, l'importante è che tu ne usi alcuni. È perfettamente corretto utilizzare i metodi classici e robusti / resistenti di routine, e preoccuparsi solo quando differiscono abbastanza per la materia. Ma quando differiscono , dovresti pensare intensamente .

Se invece la domanda è:

Perché i ricercatori non si fermano e fanno domande sui loro dati, invece di applicare ciecamente stime altamente instabili?

allora la risposta arriva davvero all'allenamento. Ci sono troppi ricercatori che non sono mai stati addestrati in modo corretto nelle statistiche, riassunti dalla dipendenza generale dai valori di p come il "tutto e fine" del "significato statistico".

@Kwak: le stime di Huber degli anni '70 sono solide, nel senso classico del termine: resistono ai valori anomali. E gli stimatori di ridimensionamento in realtà risalgono a ben prima degli anni '80: lo studio di robustezza di Princeton (del 1971) includeva la stima bisquare della posizione, una stima di ridimensionamento.


2
projecteuclid.org/… Documento liberamente disponibile scritto da Peter Huber sui contributi di John Tukey a statistiche affidabili. Lettura ragionevolmente facile, luce sulle formule.
Wesley Burr,

20

Le statistiche sono uno strumento per i ricercatori non interessati alle statistiche e non gliene importa nulla.

Una volta ho cercato di aiutare con un articolo di medicina che la mia ex moglie era co-autrice. Ho scritto diverse pagine che descrivono i dati, ciò che ha suggerito, perché alcune osservazioni erano state escluse dallo studio ... e il ricercatore principale, un medico, ha buttato via tutto e ha chiesto a qualcuno di calcolare un valore p, che è tutto ciò che lei ha (e quasi tutti quelli che avrebbero letto l'articolo) ci tenevano.


12

Dò una risposta in due direzioni:

  1. le cose robuste non sono necessariamente etichettate come robuste. Se credi che esista la solidità contro ogni cosa, allora sei ingenuo.
  2. Gli approcci statistici che lasciano il problema della robustezza appartengono a volte non sono adattati al mondo reale ma spesso hanno più valore (come concetto) di un algoritmo che assomiglia alla cucina.

developpment

In primo luogo, penso che ci siano molti buoni approcci in statistica (li troverai in pacchetti R non necessariamente con robusto menzionato da qualche parte) che sono naturalmente robusti e testati su dati reali e sul fatto che non trovi algoritmo con "robusto "menzionato da qualche parte non significa che non sia robusto. Ad ogni modo, se ritieni che essere robusti significhi essere universali, non troverai mai alcuna procedura robusta (niente pranzo libero) di cui hai bisogno per avere qualche conoscenza / competenza sui dati che analizzi per utilizzare uno strumento adattato o creare un modello adattato.

D'altra parte, alcuni approcci in statistica non sono robusti perché sono dedicati a un singolo tipo di modello. Penso che sia bello lavorare in un laboratorio per cercare di capire le cose. È anche buono trattare il problema separatamente per capire quale sia il problema della nostra soluzione ... ecco come funziona il matematico. L'esempio del modello eloquente gaussiano: è molto criticato perché l'assunzione gaussiana non è mai stata soddisfatta ma ha portato il 75% delle idee utilizzate praticamente in statistica oggi. Pensi davvero che si tratti di scrivere carta per seguire la regola di pubblicazione o perire (che non mi piace, sono d'accordo)?


11

Come qualcuno che ha imparato un po 'di statistiche per le mie ricerche, immagino che le ragioni siano pedagogiche e inerziali.

Ho osservato nel mio campo che l'ordine in cui vengono insegnati gli argomenti riflette la storia del campo. Quelle idee che sono venute per prime vengono insegnate per prime, e così via. Per le persone che si immergono nelle statistiche solo per le istruzioni in corsivo, questo significa che impareranno prima le statistiche classiche, e probabilmente per ultimo. Quindi, anche se imparano di più, le cose classiche con il bastone con loro meglio grazie agli effetti del primato.

Inoltre, tutti sanno cos'è un t-test a due campioni. Meno di tutti sanno cos'è un test di Somma Rango Mann-Whitney o Wilcoxon. Ciò significa che devo esercitare un po 'di energia nello spiegare qual è il mio test robusto, rispetto a non doverne esercitare nessuno con un test classico. Tali condizioni comporteranno ovviamente un minor numero di persone che utilizzano metodi solidi di quanto dovrebbero.


9

Wooldridge "Introduzione all'econometria - un approccio moderno" 2E p.261.

Se gli errori standard robusti all'eteroschedasticità sono validi più spesso dei soliti errori standard OLS, perché ci preoccupiamo affatto dei soliti errori standard? ... Uno dei motivi per cui sono ancora utilizzati nel lavoro trasversale è che, se l'ipotesi dell'omoschedasticità è valida e gli errori sono normalmente distribuiti, quindi le solite statistiche t hanno distribuzioni t esatte, indipendentemente dalle dimensioni del campione. I solidi errori standard e le robuste statistiche t sono giustificati solo quando la dimensione del campione diventa grande. Con campioni di piccole dimensioni, le statistiche t robuste possono avere distribuzioni che non sono molto vicine alla distribuzione t e che potrebbero scartare la nostra inferenza. In campioni di grandi dimensioni, siamo in grado di segnalare sempre solo gli errori standard robusti all'eteroschedasticità in applicazioni trasversali,



7

Sebbene non si escludano a vicenda, penso che la crescente popolarità delle statistiche bayesiane ne faccia parte. Le statistiche bayesiane possono raggiungere molti degli stessi obiettivi attraverso i priori e la media dei modelli e tendono ad essere un po 'più robuste nella pratica.


6

Non sono uno statistico, la mia esperienza in statistica è piuttosto limitata, utilizzo solo statistiche affidabili in visione artificiale / ricostruzione 3d / stima delle pose. Ecco la mia opinione sul problema dal punto di vista dell'utente:

In primo luogo, le statistiche solide hanno usato molto in ingegneria e scienza senza chiamarle "statistiche solide". Molte persone lo usano in modo intuitivo, arrivando ad esso nel processo di adattamento di un metodo specifico al problema del mondo reale. Ad esempio i minimi quadrati iterativi ripesati e i mezzi tagliati / i minimi quadrati tagliati usati comunemente, che solo l'utente non sa di aver usato statistiche solide - rendono semplicemente il metodo utilizzabile per dati reali, non sintetici.

In secondo luogo, entrambe le statistiche robuste, "intuitive" e consapevoli, sono praticamente sempre utilizzate nel caso in cui i risultati siano verificabili o dove esistano metriche di errore chiaramente visibili. Se i risultati ottenuti con una distribuzione normale sono ovviamente non validi o sbagliati, le persone iniziano a armeggiare con pesi, ritagli, campionamenti, leggere un po 'di carta e finiscono per usare robusti stimatori, che conoscano il termine o meno. D'altra parte se il risultato finale della ricerca è solo di alcuni grafici e diagrammi, e non c'è insensibilità per verificare i risultati, o se le normali statistiche producono risultati abbastanza buoni - le persone semplicemente non si preoccupano.

Infine, sull'utilità di statistiche affidabili come teoria - mentre la teoria stessa è molto interessante, spesso non offre alcun vantaggio pratico. La maggior parte degli stimatori robusti sono piuttosto banali e intuitivi, spesso le persone li reinventano senza alcuna conoscenza statistica. La teoria, come la stima del punto di rottura, l'asintotica, la profondità dei dati, l'eteroschedacità ecc. Consente una comprensione più profonda dei dati, ma nella maggior parte dei casi è semplicemente superflua. Una grande eccezione è l'intersezione di statistiche affidabili e rilevamento compressivo, che producono alcuni nuovi metodi pratici come "cross-and-bouquet"


5

La mia conoscenza di robusti stimatori riguarda esclusivamente solidi errori standard per i parametri di regressione, quindi il mio commento riguarderà solo quelli. Vorrei suggerire alla gente di leggere questo articolo,

Sul cosiddetto "Huber Sandwich Estimator" e "Robusti errori standard" di: Freedman, A. David The American Statistician, Vol. 60, n. 4. (novembre 2006), pagg. 299-302. doi: 10.1198 / 000313006X152207 ( versione PDF )

Ciò di cui mi preoccupo in particolare di questi approcci non è che si sbagliano, ma si stanno semplicemente distraendo da problemi più grandi. Pertanto, sono pienamente d'accordo con la risposta di Robin Girard e la sua menzione di "nessun pranzo libero".


3

Il calcolo e la probabilità necessari per statistiche affidabili sono (di solito) più difficili, quindi (a) c'è meno teoria e (b) è più difficile da capire.


2

Sono sorpreso di vedere il teorema di Gauss-Markov non menzionato in questo lungo elenco di risposte, afaics:

In un modello lineare con errori sferici (che lungo il percorso include un'ipotesi di assenza di valori anomali, attraverso una varianza di errore finita), OLS è efficiente in una classe di stimatori lineari imparziali - ci sono (restrittive, per sicurezza) condizioni in cui " non puoi fare di meglio di OLS ".

Non sto sostenendo che ciò dovrebbe giustificare l'uso dell'OLS quasi sempre, ma contribuisce sicuramente al perché (soprattutto perché è una buona scusa per concentrarsi così tanto sull'OLS nell'insegnamento).


Bene, sì, ma ciò presuppone che la varianza minimizzante sia il criterio rilevante, e con code pesanti, potrebbe non essere così!
kjetil b halvorsen,

1
Sicuro. Volevo solo aggiungere quello che credo sia forse il motivo più famoso per pensare che OLS sia una tecnica utile all'elenco dei motivi comprensibili per cui le tecniche robuste non lo hanno sostituito : ci sono casi in cui non dovresti sostituirlo.
Christoph Hanck,

0

La mia ipotesi sarebbe che statistiche solide non sono mai sufficienti, cioè per essere robuste queste statistiche saltano alcune delle informazioni sulla distribuzione. E sospetto che non sia sempre una buona cosa. In altre parole, c'è un compromesso tra robustezza e perdita di informazioni.

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
Vedi stats.stackexchange.com/questions/74113/… per una situazione in cui la mediana è molto fragile e la media è molto ben educata.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.