Perché le statistiche bayesiane non sono più popolari per il controllo statistico dei processi?


18

La mia comprensione del dibattito bayesiano vs frequentista è che le statistiche del frequentista:

  • è (o afferma di essere) obiettivo
  • o almeno imparziale
  • così diversi ricercatori, usando ipotesi diverse, possono ancora ottenere risultati quantitativamente comparabili

mentre le statistiche bayesiane

  • afferma di fare previsioni "migliori" (cioè una perdita attesa inferiore), perché può utilizzare conoscenze precedenti (tra le altre ragioni)
  • ha bisogno di meno scelte "ad hoc", sostituendole con scelte precedenti / modello che (almeno in linea di principio) hanno un'interpretazione del mondo reale.

Detto questo, mi sarei aspettato che le statistiche bayesiane sarebbero state molto popolari nell'SPC: se fossi un proprietario di una fabbrica che cercava di controllare la qualità del mio processo, mi sarei preoccupato principalmente della perdita attesa; Se potessi ridurlo, perché ho una conoscenza precedente più / migliore rispetto ai miei concorrenti, anche meglio.

Ma praticamente tutto ciò che ho letto su SPC sembra essere fermamente frequentato (cioè nessuna distribuzione precedente, stime puntuali di tutti i parametri, molte scelte ad hoc su dimensioni del campione, valori p ecc.)

Perché? Posso capire perché le statistiche dei frequentisti rappresentassero una scelta migliore negli anni '60, quando SPC fu fatto usando carta e penna. Ma perché nessuno ha mai provato metodi diversi da allora?


2
Penso che le statistiche bayesiane siano la mia fotocamera SLP digitale mentre frequento la fotocamera dell'iPhone. Li ho acquistati entrambi qualche volta, ma uso la DSLR meno il 5% delle foto mentre il telefono è al 95%. Perché è facile, maneggevole e tascabile e molte volte offre secondo la qualità (in base alle mie capacità DSLR). Proprio come incorporare i priori e le catene da corsa nei fieni ho bisogno di trovare un equilibrio ottimale tra durata dell'apertura, lunghezza e altri parametri. Iphone fine del popolare.
Ram Sharma,

@RamSharma dovresti pubblicarlo come risposta! Mi piace meglio della mia analogia con il coltello da chef.
Shadowtalker,

Risposte:


18

ATTENZIONE Ho scritto questa risposta molto tempo fa con ben poca idea di cosa stavo parlando. Non posso eliminarlo perché è stato accettato, ma non posso sostenere gran parte del contenuto.


Questa è una risposta molto lunga e spero che possa essere utile in qualche modo. SPC non è la mia area, ma penso che questi commenti siano abbastanza generali da essere applicati qui.

Direi che il vantaggio più spesso citato - la capacità di incorporare credenze precedenti - è un debole vantaggio applicato / campi empirici. Questo perché devi quantificare il tuo precedente. Anche se posso dire "bene, il livello z è sicuramente non plausibile", non posso per la vita di me dirti cosa dovrebbe succedere sotto z. A meno che gli autori non inizino a pubblicare i loro dati grezzi in massa, le mie migliori ipotesi per i priori sono momenti condizionati tratti da lavori precedenti che potrebbero essere stati inseriti in condizioni simili a quelle che stai affrontando.

Fondamentalmente, le tecniche bayesiane (almeno a livello concettuale) sono eccellenti per quando hai un forte presupposto / idea / modello e vuoi portarlo ai dati, quindi vedi quanto ti sbagli o non sbagli. Ma spesso non stai cercando di vedere se hai ragione su un modello particolare per il tuo processo aziendale; più probabile che si dispone di alcunamodello e stiamo cercando di vedere cosa farà il processo. Non vuoi spingere le tue conclusioni, vuoi che i tuoi dati spingano le tue conclusioni. Se hai abbastanza dati, è quello che succederà comunque, ma in tal caso perché preoccuparsi del precedente? Forse è eccessivamente scettico e avverso al rischio, ma non ho mai sentito parlare di un uomo d'affari ottimista che abbia avuto successo. Non c'è modo di quantificare la tua incertezza sulle tue convinzioni e preferiresti non correre il rischio di essere troppo fiducioso nella cosa sbagliata. Quindi si imposta un precedente non informativo e il vantaggio scompare.

Ciò è interessante nel caso SPC perché, diversamente dal marketing digitale, i processi aziendali non sono per sempre in uno stato di flusso imprevedibile. La mia impressione è che i processi aziendali tendano a cambiare deliberatamente e in modo incrementale. Cioè, hai molto tempo per costruire priori buoni e sicuri. Ma ricorda che i priori sono tutti incentrati sulla propagazione dell'incertezza. Soggettività a parte, il bayesismo ha il vantaggio di propagare oggettivamente l' incertezza attraverso processi di generazione di dati profondamente annidati. Questo, per me, è davvero ciò per cui le statistiche bayesiane sono utili. E se stai cercando l'affidabilità del tuo processo ben oltre il limite di "significatività" 1 su 20, sembra che vorresti rendere conto della massima incertezza possibile.

Allora, dove sono i modelli bayesiani? Prima di tutto, sono difficili da implementare. Per dirla senza mezzi termini, posso insegnare OLS a un ingegnere meccanico in 15 minuti e fargli eseguire regressioni e test t in Matlab in un altro 5. Per usare Bayes, devo prima decidere quale tipo di modello sto adattando, e poi vedi se esiste una libreria già pronta in una lingua che qualcuno della mia azienda conosce. Altrimenti, devo usare BUGS o Stan. E poi devo eseguire simulazioni per ottenere anche una risposta di base, e ciò richiede circa 15 minuti su una macchina i7 a 8 core. Questo per quanto riguarda la prototipazione rapida. E in secondo luogo, quando ricevi una risposta, hai trascorso due ore di programmazione e di attesa, solo per ottenere lo stesso risultato che potresti avere con effetti casuali frequentisti con errori standard raggruppati. Forse è tutto presuntuoso e sbagliato e non capisco affatto SPC.

Ho paragonato il bayesismo a un coltello da chef di altissima qualità, una pentola e una padella per sautee ; il frequentismo è come una cucina piena di strumenti As-Seen-On-TV come affettatrici di banane e pentole per la pasta con fori nel coperchio per un facile drenaggio . Se sei un cuoco esperto con molta esperienza in cucina - anzi, nella tua cucina di conoscenza sostanziale, che è pulita e organizzata e sai dove si trova tutto - puoi fare cose incredibili con la tua piccola selezione di strumenti eleganti e di alta qualità. Oppure, puoi usare un sacco di diversi piccoli strumenti ad-hoc *, che richiedono zero abilità da usare, per preparare un pasto semplice, davvero non mediocre, e che ha un paio di gusti di base che spiegano il punto. Sei appena tornato a casa dalle miniere di dati e hai fame di risultati; che cuoco sei?

* Bayes è altrettanto ad-hoc, ma meno trasparente . Quanto vino va nel tuo coq au vin? Nessuna idea, lo guardi perché sei un professionista. Oppure, non puoi dire la differenza tra un Pinot Grigio e un Pinot Nero, ma la prima ricetta di Epicurious diceva di usare 2 tazze di quella rossa, quindi è quello che farai. Qual è più "ad-hoc?"


1
+1, ottima risposta. Sono curioso: potresti aggiungere un paragrafo sulle dimensioni del campione piccole / adattive? In SPC, campioni di dimensioni di 3-5 sembrano essere comuni. E se il software SPC fosse in grado di dire al tecnico dopo 2 campioni se davvero aveva bisogno di altri 3 campioni o meno, sarebbe una grande caratteristica. Con un modello bayesiano, questo è quasi un gioco da ragazzi: definire un costo per misurazioni, falsi positivi e negativi, quindi stimare il costo previsto di prendere un'altra misurazione rispetto all'arresto. Nelle statistiche dei frequentisti, dovresti avere a che fare con strani effetti sulle regole di arresto (puoi insegnarli a un ME in 15 minuti?)
Nikie,

1
Per quanto riguarda la dimensione del campione, il problema, e l'avrei menzionato se avessi saputo che i campioni erano così piccoli, è che con pochissime osservazioni le vostre stime saranno molto sensibili alla vostra scelta del precedente. Non puoi ottenere il sangue da una pietra, quindi è un compromesso: o ti vesti troppo di uno stimatore frequentista, ma lo fai con poche ipotesi, o incorpori le tue conoscenze (o la loro mancanza) in un precedente sufficientemente vago e essenzialmente adattarsi sia ai dati che hai di fronte a te sia ai "dati" che hai in testa. Ti è permesso avere un'uniforme prima nella tua testa.
Shadowtalker,

1
Fondamentalmente, Bayes incarica maggiormente l'analista di usare il suo cervello all'inizio. Personalmente penso che essere contrario all'idea di impostare i priori sia un segno che o a) sei troppo pigro per, oppure b) non capisci davvero come funziona la statistica (ci vuole uno per conoscerne uno, ecc.). Ho detto che era difficile quantificare i priori nella mia risposta; In realtà non sono d'accordo con quello in pratica. Una cosa che puoi sempre fare è disegnare una curva a campana su una pagina e chiederti "mi aspetto che i miei dati siano così?" In caso contrario, iniziare a modificare la curva. E se non riesci a decidere dove applicare la modalità, usa un hyperprior.
Shadowtalker,

2
Una domanda (non pensata per essere brutta): sai che c'è una letteratura su (quantitativamente) sollecitare credenze precedenti, giusto? Comprese credenze pubblicate, interviste di esperti e non esperti, e convinzioni personali. Il motivo per cui chiedo è che ho già sentito questa lamentela, ma gli autori di tali lamentele hanno pensato che la loro obiezione fosse la fine della discussione, piuttosto che l'inizio di un'indagine.
Alexis,

1
@CliffAB Interessante ... Non ho letto a fondo quella letteratura (Bernardo, Kaas, Garthwaite ... di diversi decenni fa) ... ma questa è scienza carica di valore per te: diverse credenze precedenti informano se si preferiscono metodi frequentisti o bayesiani. ;)
Alexis,

5

A mio modesto parere, le statistiche bayesiane presentano alcuni inconvenienti che sono in conflitto con il suo uso diffuso (nell'SPC ma anche in altri settori di ricerca):

  1. È più difficile ottenere stime rispetto alla sua controparte frequentista (la parte più ampia delle classi sulle statistiche adotta l'approccio frequentista. A proposito, sarebbe interessante indagare se questa è la causa o l'effetto della popolarità limitata delle statistiche bayesiane ).

  2. Molto spesso le statistiche bayesiane impongono scelte su diversi modi di affrontare lo stesso problema (ad esempio, quale è il migliore prima?), Non solo fare clic e vedere (comunque, questo approccio non dovrebbe essere incoraggiato anche nel quadro del frequentista).

  3. Le statistiche bayesiane hanno alcuni argomenti che sono difficili da gestire da statistici meno esperti (ad esempio, priori impropri );

  4. Richiede analisi di sensibilità (di solito evitate nel quadro del frequentista) ed eccezioni fatte per alcuni argomenti, come l'analisi dei dati mancanti.

  5. Ha solo un software (lodevolmente, scaricabile gratuitamente) disponibile per il calcolo.

  6. Ci vuole più tempo per essere un ricercatore autonomo con bayesiano che con strumenti frequentisti.


6
Buona risposta ma non sono d'accordo con il punto 5: posso pensare a molti software (gratuiti) diversi per l'analisi bayesiana: WinBUGS, OpenBUGS, JAGS, Stan, PyMC ... e sono sicuro che ce ne sono altri. Quello che vorrei dire è che tutti questi software hanno una ripida curva di apprendimento e richiedono una discreta quantità di conoscenze di programmazione e statistiche.
COOLSerdash,

COOLSerdash ha ragione e accolgo con favore sia chiarimenti che commenti. La mia mancanza di completezza nell'elencare i software di analisi bayesiana è stata probabilmente guidata dalla mia (sciolta) familiarità solo con WinBugs.
Carlo Lazzaro,

@CarloLazzaro Concordo con il punto di COOLSerdash sul n. 5, anche: A partire dalla versione 14, il pacchetto di statistiche private ma mainstream Stata ora incorpora modelli bayesiani e stima nel pacchetto vanilla. Penso che la disponibilità computazionale bayesiana crescerà solo. Ma i tuoi altri punti sono importanti e dovrebbero aiutare a informare l'agenda dei sostenitori bayesiani.
Alexis,

@Alexis: essendo un utente Stata sono contento del suo sapore bayesiano piuttosto recente. Come pensiero più generale, garantirei di apprendere sia l'approccio frequentista che quello bayesiano durante le lezioni di statistica all'università (probabilmente i verosimili iniziano a brontolare !!).
Carlo Lazzaro,

3

Uno dei motivi è che le statistiche bayesiane sono state congelate dal mainstream fino al 1990 circa. Quando studiavo statistiche negli anni '70 era quasi un'eresia (non ovunque, ma nella maggior parte dei programmi di laurea). Non ha aiutato il fatto che la maggior parte dei problemi interessanti fosse intrattabile. Di conseguenza, quasi tutti coloro che insegnano statistiche oggi (e rivedono articoli per riviste e progettano curricula) sono formati come frequentatori. Le cose iniziarono a cambiare intorno al 1990 con la divulgazione dei metodi Markov Chain Monte Carlo (MCMC) che si stanno gradualmente facendo strada in pacchetti come SAS e Stata. Personalmente penso che saranno molto più comuni tra 10 anni, anche se nelle applicazioni specializzate (SPC) potrebbero non avere molti vantaggi.

Un gruppo che sta rievocando rende l'analisi Bayesiana più ampiamente disponibile è il gruppo che sviluppa il pacchetto STAN (mc-stan.org).


Benvenuti nel nostro sito! Solo una nota che è "Stata" piuttosto che "STATA" - Sono stato dalla parte sbagliata degli utenti Stata quando l'ho capitalizzato da solo! (Ho pensato che fosse come SAS, SPSS ecc., Ma a quanto pare non ...)
Silverfish
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.