Questo singolo valore corrisponde a quella distribuzione?


10

sembra una domanda molto ingenua ma ho difficoltà a vedere la risposta.

Ho un set di 30 valori. Indipendentemente ho ottenuto un valore 31. L'ipotesi nulla è che il 31 ° valore faccia parte della stessa distribuzione. L'alternativa è diversa. Voglio una sorta di misura del p-value o della verosimiglianza.

Alcuni pensieri che ho avuto:

  • Questo è simile al voler fare un test t a due campioni - tranne che per il secondo campione ho solo un singolo valore e i 30 valori non sono necessariamente distribuiti normalmente.
  • Se invece di 30 misurazioni avessi 10000 misurazioni, il grado della singola misurazione potrebbe fornire alcune informazioni utili.

Come posso calcolare questa probabilità o valore p?

Grazie! Yannick


4
Stai chiedendo un intervallo di previsione . Il tuo secondo pensiero porta a intervalli di previsione non parametrici (che credo non siano stati menzionati in questo sito prima).
whuber

Cos'altro puoi dirci della tua popolazione? Tutti i valori sono positivi? Ti aspetti che sia simmetrico? Unimodale?
Soakley,

Grazie e scuse avrei dovuto fornire maggiori informazioni. Diamo un'occhiata agli intervalli di previsione. Fondamentalmente abbiamo la lunghezza di una previsione genica focale. E le lunghezze di geni simili trovati nei database. Quindi tutti i numeri sono numeri interi positivi. In un caso semplice, la distribuzione delle lunghezze è unimodale. In realtà spesso non arrivano; a questo punto possiamo supporre che lo siano. Alcune trame di distribuzioni sono mostrate qui: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm il

Non sono convinto che vogliamo un "intervallo di previsione" Non vogliamo prevedere ... e non vogliamo un intervallo ...?
Yannick Wurm,

1
I3031II

Risposte:


7

Nel caso unimodale la disuguaglianza di Vysochanskij-Petunin può darti un intervallo di previsione approssimativo. Ecco il sito di Wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

λ=3

x¯3s

Ci sono un paio di problemi con questo approccio. Non conosci veramente la media o la deviazione standard; stai usando le stime. E in generale non avrai distribuzioni unimodali, il che significa che dovrai utilizzare versioni specializzate della disuguaglianza di Chebyshev. Ma almeno hai un punto di partenza.

[x(i),x(j)]Xjin+1.X[x(1),x(30)].

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

n=30,λ=3.2


Questa sembra essere un'applicazione errata della disuguaglianza: presuppone che la media e la varianza siano note , dove la varianza può essere stimata solo dai dati in questo contesto. La differenza può essere enorme, specialmente con piccoli set di dati. Nei miei studi di simulazione di proposte simili con la disuguaglianza di Chebyshev, ho trovato prestazioni incredibilmente scadenti. Intuitivamente, questo è simile all'intuizione di Student secondo cui la distribuzione t dovrebbe essere utilizzata al posto della distribuzione normale per la costruzione di EC; poiché un PI è molto più "fuori" nelle code, la differenza è amplificata.
whuber

2
2/316.456.45

1

Alcuni pensieri che ho avuto:

Questo è simile al voler fare un test t a due campioni - tranne che per il secondo campione ho solo un singolo valore e i 30 valori non sono necessariamente distribuiti normalmente.

Corretta. L'idea è un po 'come un test t con un singolo valore. Poiché la distribuzione non è nota e la normalità con solo 30 punti dati potrebbe essere un po 'difficile da ingoiare, ciò richiede una sorta di test non parametrico.

Se invece di 30 misurazioni avessi 10000 misurazioni, il grado della singola misurazione potrebbe fornire alcune informazioni utili.

Anche con 30 misurazioni il grado può essere informativo.

Come ha sottolineato @whuber, vuoi una sorta di intervallo di predizione. Per il caso non parametrico, quello che stai chiedendo, in sostanza, è il seguente: qual è la probabilità che un dato punto dati abbia per caso il grado che osserviamo per la tua 31a misurazione?

Questo può essere affrontato attraverso un semplice test di permutazione. Ecco un esempio con 15 valori e un romanzo (16a osservazione) che è in realtà più grande di uno dei precedenti:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Eseguiamo N permutazioni, in cui l'ordine degli elementi nell'elenco viene mischiato, quindi poniamo la domanda: qual è il grado per il valore del primo elemento nell'elenco (mischiato)?

L'esecuzione di N = 1.000 permutazioni ci dà 608 casi in cui il rango del primo elemento nell'elenco è uguale o migliore al rango del nuovo valore (in realtà uguale, poiché il nuovo valore è il migliore). Eseguendo nuovamente la simulazione per 1.000 permutazioni, otteniamo 658 casi del genere, quindi 663 ...

Se eseguiamo N = 1.000.000 di permutazioni, otteniamo 62825 casi in cui il rango del primo elemento nell'elenco è uguale o migliore del rango del nuovo valore (ulteriori simulazioni danno 62871 casi, quindi 62840 ...). Se prendiamo il rapporto tra i casi in cui la condizione è soddisfatta e il numero totale di permutazioni, otteniamo numeri come 0,062825, 0,062871, 0,06284 ...

Puoi vedere questi valori convergere verso 1/16 = 0,0625 (6,25%), che come osserva @whuber, è la probabilità che un dato valore (su 16) disegnato a caso abbia il miglior rango possibile tra di loro.

Per un nuovo set di dati, in cui il nuovo valore è il secondo valore migliore (ovvero il grado 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

otteniamo (per N = 1.000.000 di permutazioni): 125235, 124883 ... casi favorevoli che, ancora una volta, approssima la probabilità che un dato valore (su 16) disegnato a caso abbia il secondo miglior grado possibile tra loro: 2/16 = 0,125 (12,5%).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.