E se le probabilità non fossero uguali nella "Regola .632?"


11

Questa domanda deriva da questa sulla "Regola .632". Sto scrivendo con particolare riferimento alla risposta / notazione di user603 nella misura in cui semplifica le cose.

Quella risposta inizia con un campione di dimensione con sostituzione, da elementi distinti nella raccolta (chiamalo) esso N. La probabilità che campione sia diverso da un elemento particolare di N è quindin,nithsim(11/n).

In quella risposta tutti gli elementi di N hanno le stesse probabilità di essere disegnati casualmente.

La mia domanda è questa: supponiamo invece che nella domanda precedente gli elementi da disegnare siano tali da essere normalmente distribuiti. Cioè, suddividiamo la curva normale standard da a in (diciamo) 100 sottointervalli di uguale lunghezza. Ognuno dei 100 elementi in N ha una probabilità di essere disegnato che è uguale all'area sottesa dalla curva nel suo rispettivo intervallo.Z=4Z=4

Il mio pensiero era il seguente:

Penso che il ragionamento sia simile a quello della risposta collegata. La probabilità che , con un elemento di N, sia in cui è la probabilità di disegnaresimmP(sim)=(1Fi)Fisi.

La probabilità che un particolare elemento m sia nel campione S di dimensione n è

P(mS)=1P(mS)=11nP(sim)
=11n(1Fi).

Un calcolo sembra mostrare che man mano che la lunghezza dei sottointervalli si riduce, la risposta converge nello stesso numero del primo caso (le probabilità di tutte uguali).si

Questo sembra controintuitivo (per me) perché la costruzione sembra introdurre elementi di N che sono rari, quindi mi aspetto un numero inferiore a .632.

Inoltre, se questo è corretto, immagino che avremmo

limn1n(1Fi)=lim(11/n)n=1/e,

che non so essere ancora vero o falso.

Modifica: se è vero probabilmente ne generalizzerebbe alcuni.

Grazie per eventuali approfondimenti.


Ho appena chiesto dell'ultima equazione su Mathematics SE (domanda 791114) perché sono anche interessato a come si generalizza, se non del tutto.
Daniel

... e la risposta breve è che l'ultima uguaglianza è corretta per i PDF ben educati, quindi la risposta alla domanda è che la regola .632 vale per un'ampia varietà di distribuzioni sottostanti.
Daniel

Posso sollevare la risposta di qualcun altro da un altro sito e pubblicarla qui come mia? Ecco perché ho pubblicato il breve commento. Forse c'è un modo accettato per farlo, se è così sono disponibile.
daniel,

certo che puoi, basta menzionare la fonte ad un certo punto :)
Firebug

@Firebug: puoi indicare un'istanza in cui ciò viene fatto in modo che io possa vedere cosa intendi? Grazie.
Daniel

Risposte:


2

La domanda si pone sul comportamento limitante di

(1)=1i=1n(1Fi)

man mano che cresce e la restringe uniformemente in modo tale che (a) tutti siano non negativi e (b) si sommino all'unità. (Questi seguono dalla costruzione e degli assiomi della probabilità.)nFi Fi

Per definizione, questo prodotto è l'esponente del suo logaritmo:

i=1n(1Fi)=exp(i=1nlog(1Fi)).

Il teorema di Taylor (con la forma di Lagrange del resto) , applicato a , lo stabiliscelog

log(1Fi)=Fi12ϕi2Fi12Fi2

per alcuni nell'intervallo . In altre parole, questi logaritmi equivalgono a fino a termini che sono al massimo volte . Ma quando è abbastanza grande da assicurare che tutti gli siano più piccoli di alcuni dati (una condizione assicurata dalla contrazione uniforme di ), allora (b) implica e quindiϕi[0,Fi]Fi 1/2Fi2nFiϵ>0Finϵ>Fi=1

i=1nFi2i=1nϵ2<i=1n(1n)2=1n.

conseguentemente

1=i=1nFii=1nlog(1Fi)i=1nFi121n=112n

stringe il logaritmo tra due sequenze che convergono in . Poiché è continuo, il prodotto converge all'esponenziale di questo limite, . conseguentemente1expi=1n(1Fi)exp(1)

limn(1i=1n(1Fi))=1exp(1)0.632,

QED .


Uno sguardo più attento a questa analisi stabilisce che l'errore in questa approssimazione (che sarà sempre un limite inferiore ) non ha dimensioni maggiori di Ad esempio, la divisione di una distribuzione normale standard in sezioni tra e produce un massimo vicino alla modalità , dove sarà approssimativamente uguale all'area di un rettangolo lì, . Il limite precedente stabilisce che il valore della formula sarà compreso tra del suo valore limite. L'errore reale è un ordine di grandezza inferiore,

(exp((n/2)max(Fi2))1)exp(1).
n=40044Fi0exp(1/2)/500.012(1)0.0110.001041 . Ecco il calcolo in R(di cui possiamo fidarci perché nessuno dei è veramente piccolo rispetto a ):fi1
f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

Infatti, 1 - prod(1-f)è mentre è .0.63316151exp(1)0.6321206


2
L'analisi degli errori è un aspetto molto utile di questa risposta.
Daniel
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.