Inferenza senza rischio: cosa significa?


11

Di recente sono venuto a conoscenza del fatto che i metodi "privi di probabilità" sono stati banditi in letteratura. Tuttavia, non sono chiaro su cosa significhi che un metodo di inferenza o ottimizzazione sia privo di probabilità .

Nell'apprendimento automatico l'obiettivo è di solito massimizzare la probabilità di alcuni parametri per adattarsi a una funzione, ad esempio i pesi su una rete neurale.

Allora, qual è esattamente la filosofia di un approccio privo di probabilità e perché le reti contraddittorie come le GAN rientrano in questa categoria?

Risposte:


10

Esistono molti esempi di metodi non basati sulle probabilità nelle statistiche (non conosco l'apprendimento automatico). Qualche esempio:

  1. Test di significatività pura di Fisher . Basato solo su un'ipotesi nulla nettamente definita (come nessuna differenza tra il latte prima e il latte ultimo nell'esperimento Lady Tasting Tea. Questa ipotesi porta a una distribuzione di ipotesi nulla, quindi a un valore p. Nessuna probabilità implicata. Questo minimo meccanismo inferenziale di per sé non può fornire una base per l'analisi della potenza (nessuna alternativa definita formalmente) o intervalli di confidenza (nessun parametro definito formalmente).

  2. Associato a 1. è il test di randomizzazione La differenza tra test di randomizzazione e test di permutazione , che nella sua forma più semplice è un test di significatività pura.

  3. Il bootstrap viene eseguito senza la necessità di una funzione di verosimiglianza. Ma ci sono connessioni con idee di verosimiglianza, ad esempio verosimiglianza empirica .

  4. I metodi basati sul rango di solito non usano la probabilità.

  5. Molte statistiche affidabili.

  6. Gli intervalli di confidenza per la mediana (o altri quantili) possono essere basati su statistiche dell'ordine. Nessun rischio è coinvolto nei calcoli. Intervallo di confidenza per la mediana , miglior stimatore per la varianza della mediana empirica

  7. V Vapnik ha avuto l'idea dell'apprendimento transduttivo che sembra essere correlato a https://en.wikipedia.org/wiki/Epilogism come discusso nel Black Swan Taleb e nel Black Swan .

  8. N(μ,σ2)N(9.37,2.122)

Al momento hai una funzione di probabilità, c'è un immenso meccanismo su cui costruire. I bayesiani non possono farne a meno e la maggior parte degli altri usa la probabilità per la maggior parte del tempo. Ma viene sottolineato in un commento che anche i bayesiani cercano di fare a meno, vedi Approximate_Bayesian_computation . C'è anche un nuovo testo su questo argomento.

Ma da dove vengono? Per ottenere una funzione di verosimiglianza nel solito modo, abbiamo bisogno di molte ipotesi che possono essere difficili da giustificare.

È interessante chiederci se possiamo costruire funzioni di verosimiglianza, in qualche modo, da alcuni di questi metodi privi di verosimiglianza. Ad esempio, al punto 6. sopra, possiamo costruire una funzione di probabilità per la mediana da (una famiglia di) intervalli di confidenza calcolati dalle statistiche dell'ordine? Dovrei porlo come una domanda separata ...

La tua ultima domanda su GAN è che devo partire per gli altri.


7
(+1) Ma vedi Calcolo bayesiano approssimativo . (Ho l'impressione che "senza probabilità" sia usato di più per le procedure in cui ti aspetteresti di dover svolgere una funzione di verosimiglianza, ma non è necessario; piuttosto che per i test di randomizzazione e simili per i quali ovviamente non indossi " t.)
Scortchi - Ripristina Monica

9

Nello specifico, [i recenti] metodi privi di probabilità sono una riformulazione degli algoritmi ABC, in cui ABC sta per calcolo bayesiano approssimativo . Questo intende coprire i metodi di inferenza che non richiedono l'uso di una funzione di verosimiglianza a forma chiusa, ma intendono ancora studiare un modello statistico specifico. Sono liberi dalla difficoltà computazionale legata alla probabilità ma non dal modello che produce questa probabilità. Vedi per esempio

  1. Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F (2009). "Metodi privi di rischio per la scelta del modello nei campi casuali di Gibbs". Analisi bayesiana. 3: 427–442 .
  2. Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S (2009). "Critica modello basata su inferenza priva di probabilità, con un'applicazione all'evoluzione della rete proteica". Atti della National Academy of Sciences degli Stati Uniti d'America. 106: 10576–10581 .
  3. Bazin, E., Dawson, KJ e Beaumont, MA (2010). Inferenza libera da rischio della struttura della popolazione e adattamento locale in un modello gerarchico bayesiano. Genetica, 185 (2), 587-602 .
  4. Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). "Stima senza prove di prove modello". Analisi bayesiana. 6: 49–76 .
  5. Gutmann, M. e Corander, J. (2016) Ottimizzazione bayesiana per inferenza priva di probabilità di modelli statistici basati su simulatore Journal of Machine Learning Research .

2

Per aggiungere alla litania di risposte, le statistiche asintotiche sono infatti prive di probabilità.

Una "probabilità" qui si riferisce al modello di probabilità per i dati . Potrei non preoccuparmene. Ma potrei trovare un semplice stimatore, come la media, che sia un sommario adeguato dei dati e voglio fare un'inferenza sulla media della distribuzione (supponendo che esista, che è spesso un presupposto ragionevole).

Secondo il teorema del limite centrale, la media ha una distribuzione normale approssimativa in N grande quando esiste anche la varianza. Posso creare test coerenti (la potenza va a 1 come N va all'infinito quando null è falso) che hanno la dimensione corretta. Mentre ho un modello di probabilità (che è falso) per la distribuzione campionaria della media in dimensioni del campione finite, posso ottenere un'inferenza valida e una stima imparziale per aumentare il mio "utile sommario dei dati" (la media).

Va notato che i test basati sull'IC al 95% per la mediana (ovvero l'opzione 6 nella risposta di @ kjetilbhalvorsen) si basano anche sul teorema del limite centrale per dimostrare che sono coerenti. Quindi non è folle considerare il semplice test T come un test "non parametrico" o "non basato sulla verosimiglianza".


1

p(y|X)Xyp(y|X)=N(y|μ(X),σ)p(y|X)

p(y|X)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.