Quali sono i "grandi problemi" nelle statistiche?


77

La matematica ha i suoi famosi problemi del millennio (e, storicamente, il 23 di Hilbert ), domande che hanno contribuito a modellare la direzione del campo.

Ho poca idea, tuttavia, quali sarebbero le ipotesi di Riemann e le statistiche P vs. NP.

Quindi, quali sono le domande aperte generali nelle statistiche?

A cura di aggiungere: Come esempio dello spirito generale (se non proprio di specificità) della risposta che sto cercando, ho trovato una conferenza ispirata a "Hilbert's 23" di David Donoho alla conferenza "Math Challenges of the 21st Century": Analisi dei dati ad alta dimensione: le maledizioni e le benedizioni della dimensionalità

Quindi una potenziale risposta potrebbe parlare di big data e perché è importante, i tipi di sfide statistiche poste da dati ad alta dimensione e i metodi che devono essere sviluppati o le domande a cui è necessario rispondere per aiutare a risolvere il problema.


5
grazie per aver postato questo. È una discussione importante (e potenzialmente stimolante) da avere.
whuber

Risposte:


48

Una grande domanda dovrebbe riguardare questioni chiave della metodologia statistica o, poiché le statistiche riguardano interamente le applicazioni, dovrebbe riguardare il modo in cui le statistiche vengono utilizzate con problemi importanti per la società.

Questa caratterizzazione suggerisce che quanto segue dovrebbe essere incluso in qualsiasi considerazione di grandi problemi:

  • Il modo migliore per condurre prove farmacologiche . Attualmente, il test di ipotesi classica richiede molte fasi formali di studio. Nelle fasi successive (di conferma), le questioni economiche ed etiche incombono. Possiamo fare di meglio? Dobbiamo mettere centinaia o migliaia di malati in gruppi di controllo e tenerli lì fino alla fine di uno studio, per esempio, o possiamo trovare modi migliori per identificare trattamenti che funzionano davvero e consegnarli ai membri del processo (e altri) prima?

  • Far fronte ai pregiudizi della pubblicazione scientifica . I risultati negativi vengono pubblicati molto meno semplicemente perché non raggiungono un valore p magico. Tutte le branche della scienza devono trovare modi migliori per far emergere risultati scientificamente importanti, non solo statisticamente significativi . (Il problema dei confronti multipli e la gestione di dati ad alta dimensione sono sottocategorie di questo problema.)

  • Indagare i limiti dei metodi statistici e delle loro interfacce con l'apprendimento automatico e la cognizione automatica . I progressi inevitabili nella tecnologia informatica renderanno la vera IA accessibile nelle nostre vite. Come programmeremo il cervello artificiale? Quale ruolo potrebbe avere il pensiero statistico e l'apprendimento statistico nella creazione di questi progressi? In che modo gli statistici possono aiutare a pensare alla cognizione artificiale, all'apprendimento artificiale, ad esplorare i loro limiti e a fare progressi?

  • Sviluppare modi migliori per analizzare i dati geospaziali . Si afferma spesso che la maggior parte, o la stragrande maggioranza, dei database contiene riferimenti di localizzazione. Presto molte persone e dispositivi saranno localizzati in tempo reale con le tecnologie GPS e dei telefoni cellulari. I metodi statistici per analizzare e sfruttare i dati spaziali sono proprio nella loro infanzia (e sembrano essere relegati al GIS e al software spaziale che è tipicamente usato da non statistici).


1
Quali sono i modi in cui le persone stanno cercando di risolvere questi problemi?
Raegtin,

3
@grautur: sono quattro domande eccellenti (più molte altre, perché la tua risposta si applica a ogni risposta in questo thread). Tutti meritano risposte elaborate, ma ovviamente non c'è spazio per questo qui: una domanda alla volta, per favore!
whuber

3
Per quanto riguarda il primo proiettile (studi sui farmaci): anche le persone che altrimenti potrebbero non essere interessate alla sperimentazione medica dovrebbero leggere l'articolo di NYTimes New Drugs Stir Discussing on Basic Rules of Clinical Trials ( nytimes.com/2010/09/19/health/research/ ... ). Il lettore statisticamente esperto vedrà immediatamente le implicazioni non dichiarate relative alla progettazione sperimentale e all'utilizzo dei valori p per il processo decisionale. C'è una soluzione statistica, da qualche parte, all'enigma della vita e della morte descritto in questo articolo.
whuber

26

Michael Jordan ha un breve articolo intitolato Quali sono i problemi aperti nelle statistiche bayesiane? , in cui ha interrogato un sacco di statistici per le loro opinioni sui problemi aperti nelle statistiche. Riassumo un po '(aka, copia e incolla) un po' qui, ma probabilmente è meglio solo leggere l'originale.

Non parametrici e semiparametrici

  • Per quali problemi è utile la parametrica bayesiana e ne vale la pena?
  • David Dunson: "I modelli Bayes non parametrici implicano infinitamente molti parametri e in genere i priori sono scelti per comodità con iperparametri impostati su valori apparentemente ragionevoli senza una giustificazione oggettiva o soggettiva adeguata".
  • "Diverse persone hanno notato che una delle applicazioni interessanti della nonparametrica frequentista è l'inferenza semiparametrica, in cui la componente non parametrica del modello è un parametro fastidioso. Queste persone hanno ritenuto che sarebbe desiderabile approfondire la teoria (frequentista) di Semiparametrica bayesiana ".

Priori

  • "L'elicitazione rimane una delle principali fonti di problemi aperti".
  • "Aad van der Vaart ha puntato l'obiettivo Bayes sulla testa e ha sottolineato la mancanza di teoria per" situazioni in cui si desidera che il priore si verifichi nella parte posteriore "anziché" semplicemente fornire un approccio bayesiano al livellamento "."

Relazioni bayesiane / frequentiste

  • "Molti intervistati hanno espresso il desiderio di approfondire ulteriormente le relazioni bayesiane / frequentiste. Ciò è stato più comunemente dimostrato nel contesto di modelli e dati ad alta dimensione, dove non solo gli approcci soggettivi alle specifiche dei priori sono difficili da implementare, ma i priori di convenienza possono essere (altamente) fuorviante ".
  • 'Alcuni intervistati hanno chiesto la teoria non asintotica che potrebbe rivelare più pienamente i vantaggi putativi dei metodi bayesiani; ad esempio, David Dunson: "Spesso, il tasso ottimale del frequentista si ottiene con procedure che chiaramente fanno molto peggio in campioni finiti rispetto agli approcci bayesiani." "

Calcolo e statistiche

  • Alan Gelfand: "Se MCMC non è più praticabile per i problemi che le persone vogliono affrontare, allora qual è il ruolo di INLA, dei metodi variazionali, degli approcci ABC?"
  • "Numerosi intervistati hanno chiesto una più completa integrazione della scienza computazionale e della scienza statistica, rilevando che l'insieme di inferenze che si possono raggiungere in una data situazione sono congiuntamente una funzione del modello, del precedente, dei dati e delle risorse computazionali, e desiderano per una gestione più esplicita dei compromessi tra queste quantità. In effetti, Rob Kass ha sollevato la possibilità di una nozione di "solvibilità inferenziale", in cui alcuni problemi sono considerati al di là della speranza (ad esempio,selezione del modello in regressione dove "per modeste quantità di dati soggetti a rumore non banale è impossibile ottenere intervalli di confidenza utili sui coefficienti di regressione quando vi sono un gran numero di variabili la cui presenza o assenza nel modello non è specificata a priori") e dove ci sono altri problemi ("alcuni funzionali per i quali esistono intervalli di confidenza utili") per i quali c'è speranza ".
  • "Diversi intervistati, pur scusandosi per una certa vaghezza, hanno espresso la sensazione che una grande quantità di dati non implica necessariamente una grande quantità di calcolo; piuttosto, che in qualche modo la forza inferenziale presente in grandi dati dovrebbe trasferirsi all'algoritmo e renderlo possibile accontentarsi di un minor numero di passaggi computazionali per ottenere una soluzione inferenziale (approssimativa) soddisfacente. "

Selezione del modello e test di ipotesi

  • George Casella: "Adesso facciamo la selezione del modello ma i bayesiani non sembrano preoccuparsi delle proprietà di basare l'inferenza sul modello selezionato. Cosa succede se è sbagliato? Quali sono le conseguenze della creazione di regioni credibili per un determinato parametro quando hai selezionato il modello sbagliato? Possiamo avere procedure con una sorta di garanzia? "β1
  • Necessità di lavorare di più sulle basi teoriche della decisione nella selezione dei modelli.
  • David Spiegelhalter: "Il modo migliore per rendere i controlli per conflitti di dati / precedenti parte integrante dell'analisi bayesiana?"
  • Andrew Gelman: "Per il controllo dei modelli, un problema chiave aperto è lo sviluppo di strumenti grafici per la comprensione e il confronto dei modelli. La grafica non è solo per i dati grezzi; piuttosto, i modelli bayesiani complessi offrono l'opportunità di un'analisi dei dati esplorativa migliore e più efficace."

13

Non sono sicuro di quanto siano grandi, ma esiste una pagina Wikipedia per problemi irrisolti nelle statistiche. La loro lista comprende:

Inferenza e test

  • Errori sistematici
  • Ammissibilità dello stimatore Graybill – Deal
  • Combinazione di valori p dipendenti in Meta-analisi
  • Problema di Behrens-Fisher
  • Confronti multipli
  • Problemi aperti nelle statistiche bayesiane

Design sperimentale

  • Problemi nelle piazze latine

Problemi di natura più filosofica

  • Campionamento del problema delle specie
  • Argomento del giorno del giudizio
  • Scambia il paradosso


4

Mathoverflow ha una domanda simile sui grandi problemi nella teoria della probabilità .

Sembrerebbe da quella pagina che le domande più grandi riguardano l'auto-evitamento di passeggiate e percolazioni casuali.


1
Penso che la statistica sia un'area separata dalla teoria della probabilità, però.
Raegtin,

3
@raegtin - Non credo che la teoria della probabilità sia separata dalla statistica, piuttosto è la teoria. La "statistica" è l'applicazione della teoria della probabilità ai problemi inferenziali (cioè la pratica).
Probislogic,


3

La mia risposta sarebbe la lotta tra statistiche frequentiste e bayesiane. Quando le persone ti chiedono in cosa "credi", non va bene! Soprattutto per una disciplina scientifica.


2
Non c'è nulla di sbagliato nello scienziato che "crede" in qualcosa, specialmente perché una probabilità bayesiana rappresenta il grado di credenza o conoscenza riguardo alla verità di alcune proposizioni.
Dikran Marsupial,

2
... Il problema sorge solo quando uno scienziato non riesce a distinguere tra una credenza e un fatto. Non c'è nulla di non scientifico nella convinzione che le statistiche bayesiane o frequentiste siano superiori, in quanto non esiste un test oggettivo in grado di decidere la risposta (AFAIK), quindi la scelta è in gran parte soggettiva e / o una questione di "cavalli per corsi".
Dikran Marsupial,

@propofol - Sono d'accordo sul fatto che la parola "credere" non è una nozione appropriata da usare nelle statistiche - porta un tipo sbagliato di connotazioni. Penso che l'informazione sia una parola molto più appropriata (cioè "quali informazioni hai?"). Non cambia la matematica o i teoremi di ottimalità dell'analisi bayesiana, ma dà loro il loro giusto significato in termini di come vengono effettivamente utilizzati. per esempio, la conoscenza di una teoria fisica o di un meccanismo causale è informazione e non credenza.
Probislogic,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.