Prendendo le aspettative delle serie di Taylor (in particolare il resto)


43

La mia domanda riguarda il tentativo di giustificare un metodo ampiamente utilizzato, vale a dire prendere il valore atteso della serie Taylor. Supponiamo di avere una variabile casuale con media positiva e varianza . Inoltre, abbiamo una funzione, diciamo, .Xμσ2log(x)

Facendo l'espansione di Taylor di intorno alla media, otteniamo dove, come al solito, è st.logX

logX=logμ+Xμμ12(Xμ)2μ2+13(Xμ)3ξX3,
ξX|ξXμ|<|Xμ|

Se prendiamo un'aspettativa, otterremo un'equazione approssimativa che le persone di solito chiamano qualcosa di auto-apparente (vedi qui il segno nella prima equazione) :

ElogXlogμ12σ2μ2

DOMANDA : Sono interessato a come dimostrare che il valore atteso del termine residuo è in realtà trascurabile, ad esempio

E[(Xμ)3ξX3]=o(σ2)
(o, in altre parole, E[o(Xμ)2]=o(E[(Xμ)2]) ).

Cosa ho cercato di fare : supponendo che σ20 (che, a sua volta, significa Xμ in P ), ho provato a dividere l'integrale in due, circondando μ con alcuni ε -vicinity Nε :

Rp(x)(xμ)3ξx3dx=xNεdx+xNεdx

Il primo può essere limitato dal fatto che 0Nε e quindi 1/ξ3 non danno fastidio. Ma con il secondo abbiamo due fatti concorrenti: da un lato

P(|Xμ|>ε)0
(come σ20 ). D'altra parte, non sappiamo cosa fare di 1/ξ3 .

Un'altra possibilità potrebbe essere quella di provare a usare il lemma di Fatou, ma non riesco a capire come.

Apprezzeremo qualsiasi aiuto o suggerimento. Mi rendo conto che questa è una specie di domanda molto tecnica, ma devo affrontarla per confidare in questo metodo di "aspettativa di Taylor". Grazie!

PS Ho controllato qui , ma sembra che sia un po 'di un'altra roba.


Perché c'è un segno meno di fronte al terzo termine dell'espansione di Taylor? Anche perché nel quarto termine ci sono e non? Cosa mi sto perdendo? 3 !33!
Alecos Papadopoulos,

@Alecos: Basta guardare la esima derivata di . Questo risponderà ad entrambe le tue domande. log xnlogx
cardinale,

4
(+1) Questo problema è emerso recentemente nelle discussioni di due domande relative alla ricerca dei momenti di . Vale la pena prestare particolare attenzione a tali questioni. :-)X1
cardinale

1
L'approssimazione del primo ordine potrebbe effettivamente essere migliore in alcuni casi, a causa del teorema del valore medio. Non sono sicuro se il teorema del valore medio sarebbe utile nel caso generale.
Probislogic,

1
Avrei pensato che il teorema di convergenza dominante potesse essere utile qui, poiché l'equazione è uno scambio di limiti e integrazione. E(o(..))=o(E(..))
Probislogic,

Risposte:


32

Hai ragione ad essere scettico su questo approccio. Il metodo della serie Taylor non funziona in generale, sebbene l'euristica contenga un nocciolo di verità. Per riassumere la discussione tecnica di seguito,

  • Una forte concentrazione implica che il metodo della serie Taylor funzioni per funzioni interessanti
  • Le cose possono e andranno drammaticamente male per distribuzioni dalla coda pesante o funzioni non così carine

Come indica la risposta di Alecos, ciò suggerisce che il metodo della serie Taylor dovrebbe essere scartato se i tuoi dati potrebbero avere code pesanti. (Professionisti della finanza, ti sto guardando.)

Come notato da Elvis, il problema principale è che la varianza non controlla i momenti più alti . Per capire perché, semplifichiamo il più possibile la tua domanda per arrivare all'idea principale.

Supponiamo di avere una sequenza di variabili casuali con come . σ ( X n ) 0 n Xnσ(Xn)0n

D: Possiamo garantire che comen ?E[|Xnμ|3]=o(σ2(Xn))n?

Poiché esistono variabili casuali con secondi momenti finiti e infiniti terzi, la risposta è decisamente no . Pertanto, in generale, il metodo della serie Taylor fallisce anche per i polinomi di terzo grado . L'iterazione di questo argomento mostra che non puoi aspettarti che il metodo della serie Taylor fornisca risultati accurati, anche per i polinomi, a meno che tutti i momenti della variabile casuale non siano ben controllati.

Che cosa dobbiamo fare allora? Certamente il metodo funziona per variabili casuali limitate il cui supporto converge in un punto, ma questa classe è troppo piccola per essere interessante. Supponiamo invece che la sequenza provenga da una famiglia altamente concentrata che soddisfa (diciamo)Xn

(1)P{|Xnμ|>t}eCnt2

per ogni e qualche . Tali variabili casuali sono sorprendentemente comuni. Ad esempio, quando è la media empiricaC > 0 X nt>0C>0Xn

Xn:=1ni=1nYi

di belle variabili casuali (es. iid e delimitato), varie disuguaglianze di concentrazione implicano che soddisfa (1). Un argomento standard (vedi p. 10 qui ) limita i momento di tali variabili casuali:X n pYiXnp

E[|Xnμ|p](p2Cn)p/2.

Pertanto, per qualsiasi funzione analitica "sufficientemente piacevole" (vedi sotto), possiamo legare l'errore sull'approssimazione della serie -term di Taylor usando la disuguaglianza del triangoloE m mfEmm

Em:=|E[f(Xn)]p=0mf(p)(μ)p!E(Xnμ)p|1(2Cn)(m+1)/2p=m+1|f(p)(μ)|pp/2p!

quando . Poiché l'approssimazione di Stirling dà , l'errore della serie troncata di Taylor soddisfap ! p p - 1 / 2n>C/2p!pp1/2

(2)Em=O(n(m+1)/2) as nwheneverp=0p(1p)/2|f(p)(μ)|<.

Quindi, quando è fortemente concentrato e è sufficientemente bello, l'approssimazione della serie Taylor è davvero accurata. La disuguaglianza che appare in (2) implica che , quindi in particolare la nostra condizione richiede che sia intera . Questo ha senso perché (1) non impone alcuna ipotesi di limite su .Xnff(p)(μ)/p!=O(pp/2)fXn

Vediamo cosa può andare storto quando is ha una singolarità (seguendo il commento di whuber). Supponiamo di scegliere . Se prendiamo dalla distribuzione troncata tra zero e due, allora è sufficientemente concentrato ma per ogni . In altre parole, abbiamo una variabile casuale molto concentrata e limitata , e tuttavia il metodo della serie Taylor fallisce quando la funzione ha una sola singolarità.ff(x)=1/xXnNormal(1,1/n)XnE[f(Xn)]=n

Qualche parola sul rigore. Trovo più bello presentare la condizione che appare in (2) come derivata piuttosto che un deus ex machina richiesto in un rigoroso teorema / formato di prova. Per rendere l'argomento completamente rigoroso, prima nota che il lato destro in (2) implica questo

E[|f(Xn)|]i=0|f(p)(μ)|p!E[|Xnμ|p]<

dal tasso di crescita dei momenti subgaussiani dall'alto. Pertanto, il teorema di Fubini prevede

E[f(Xn)]=i=0f(p)(μ)p!E[(Xnμ)p]

Il resto della prova procede come sopra.


1
Potrei averlo perso in una lettura veloce, ma stai sostenendo (tra le altre cose) che a condizione che il terzo momento di sia sufficientemente "sotto controllo", allora le aspettative di possono essere ragionevolmente approssimate prendendo le aspettative di la serie [MacLaurin] di ? Sono preoccupato perché non ho visto alcun riferimento alle proprietà di convergenza della serie stessa, che sono almeno altrettanto importante quanto le code della distribuzione di . log ( X ) log XXlog(X)logX
whuber

2
@whuber Hai ragione; avrai bisogno del supporto di per essere nel ROC della serie Taylor, quindi, in particolare, quasi sicuramente. Aggiornerò il post per riflettere questo. X0<X<2μ
Mike McCoy,

2
Penso ancora che mi manchi qualcosa. Ad esempio, quando ha una distribuzione Normale troncata a , ovviamente è "altamente concentrata", ha una media di ed è quasi sicuramente nel raggio di convergenza di (che è analitico all'interno del disco dell'unità centrato su , che contiene ), tuttavia è infinito. X(1,1)(0,2)μ=1f(x)=1/x=1/(1(1x))1(0,2μ)E[f(X)]
whuber

1
@gron Hai fatto qualche piccolo errore. Quando , la derivata . La condizione non è valida perché per qualsiasi . Puoi anche verificare che (2) non sia valido perché qualsiasi funzione che soddisfa (2) soddisfa anche , e quindi ha nessuna singolarità (nel suo insieme , per il link). f(x)=1/x|f(p)(μ)|=p!/μp
(2)=p!p(1p/2)μp
μ>0log(p!f(p)(μ))/pf
Mike McCoy,

1
@gron Hai bisogno di due cose: (1) assicurati che il tuo RV abbia un supporto rigorosamente all'interno del ROC della serie di potenze di log (cioè, per ), e (2) assicurarsi che i momenti del RV diminuiscano abbastanza velocemente che una stima dell'errore per sopra sia finita. Per quanto riguarda il modo di controllare i momenti, dovresti fare una nuova domanda perché ci vorranno troppi personaggi (e io stesso sono curioso di conoscere nuovi modi). [0+ε,2με]ε>0Em
Mike McCoy,

10

Sebbene la mia risposta non si avvicinerà in alcun modo al livello di sofisticazione matematica delle altre risposte, ho deciso di pubblicarla perché credo che abbia qualcosa da contribuire, anche se il risultato sarà "negativo", come si suol dire.

In tono leggero, direi che l'OP è "avverso al rischio" , (come la maggior parte delle persone, così come la scienza stessa), perché l'OP richiede una condizione sufficiente affinché l'approssimazione dell'espansione della serie Taylor del 2 ° ordine sia " accettabile". Ma è non è una condizione necessaria.

In primo luogo, un prerequisito necessario ma non sufficiente affinché il valore atteso del resto sia di ordine inferiore rispetto alla varianza del camper, come richiesto dall'OP, è che la serie converge in primo luogo. Dovremmo solo assumere la convergenza? No.

L'espressione generale che esaminiamo è

E[g(Y)]=fY(y)[i=0g(i)(μ)(yμ)ii!]dy[1]

Come afferma Loistl (1976) , riferendosi al libro "Calcolo e statistiche" di Gemignani (1978, p. 170), una condizione per la convergenza della somma infinita è (un'applicazione del test del rapporto per la convergenza)

yμ<|yμ|<limi|(g(i)(μ)g(i+1)(μ)(i+1))|[2]

... dove è la media di rv Anche se anche questa è una condizione sufficiente (il test del rapporto è inconcludente se la relazione di cui sopra vale con l'uguaglianza), le serie divergeranno se la disuguaglianza si mantiene nella direzione opposta.μ

Loistl ha esaminato tre forme funzionali specifiche per , l'esponenziale, la potenza e il logaritmo (il suo documento è nel campo dell'utilità attesa e della scelta del portafoglio, quindi ha testato le forme funzionali standard utilizzate per rappresentare una funzione di utilità concava). Per queste forme funzionali, ha scoperto che solo per la forma funzionale esponenziale non sono state imposte restrizioni su . Al contrario, per il potere e per il caso logaritmico (dove abbiamo già ), troviamo che la validità della disuguaglianza è equivalente a g()yμ0<y[2]

yμ<μ0<y<2μ

Ciò significa che se la nostra variabile varia al di fuori di questo intervallo, l'espansione di Taylor che ha come centro di espansione la media della variabile divergerà.

Quindi: per alcune forme funzionali, il valore di una funzione in qualche punto del suo dominio è uguale alla sua infinita espansione di Taylor, non importa quanto questo punto sia lontano dal centro di espansione. Per altre forme funzionali (logaritmo incluso), il punto di interesse dovrebbe trovarsi in qualche modo "vicino" al centro di espansione scelto. Nel caso in cui abbiamo un camper, ciò si traduce in una limitazione del supporto teorico della variabile (o in un esame del suo intervallo osservato empiricamente).

Loitl, usando esempi numerici, ha anche mostrato che aumentare l'ordine dell'espansione prima del troncamento potrebbe peggiorare le cose per l'accuratezza dell'approssimazione. Dobbiamo notare che empiricamente, le serie temporali di variabili osservate nel settore finanziario mostrano una variabilità maggiore di quella richiesta dalla disuguaglianza. Quindi Loitl ha continuato a sostenere che la metodologia di approssimazione della serie Taylor dovrebbe essere completamente eliminata, per quanto riguarda la teoria della scelta del portafoglio.

Il rimbalzo arrivò 18 anni dopo da Hlawitschka (1994) . La preziosa intuizione e il risultato qui sono stati e cito

... sebbene alla fine una serie possa convergere, poco si può dire di nessuna delle sue serie parziali; la convergenza di una serie non implica che i termini diminuiscano immediatamente in termini di dimensioni o che qualsiasi termine particolare sia sufficientemente piccolo per essere ignorato. In effetti, è possibile, come dimostrato qui, che una serie possa sembrare divergere prima di convergere alla fine nel limite. La qualità delle approssimazioni del momento all'utilità attesa che si basano sui primi termini di una serie di Taylor, pertanto, non può essere determinata dalle proprietà di convergenza della serie infinita. Questo è un problema empirico ed empiricamente, le approssimazioni di due momenti alle funzioni di utilità qui studiate si comportano bene per il compito di selezione del portafoglio. Hlawitschka (1994)

Ad esempio, Hlawitschka mostrò che l'approssimazione del 2 ° ordine ebbe "successo", indipendentemente dal fatto che la serie di Taylor convergesse o meno , ma verificò anche il risultato di Lotl, che aumentare l'ordine dell'approssimazione potrebbe peggiorare le cose. Ma esiste un qualificatore per questo successo: in Portfolio Choice, l'utilità attesa viene utilizzata per classificare i titoli e altri prodotti finanziari. È una misura ordinale , non cardinale. Quindi quello che Hlawitschka ha scoperto è che l'approssimazione del 2 ° ordine ha preservato la classifica di diversi titoli, rispetto alla classifica derivante dal valore esatto di , e nonE(g(Y) che ha sempre dato risultati quantitativi sufficientemente vicini a questo valore esatto (vedere la sua tabella A1 a p. 718).

Quindi dove ci lascia? Nel limbo, direi. Sembra che sia in teoria che in empirica, l'accettabilità dell'approssimazione di Taylor del 2 ° ordine dipenda in modo critico da molti aspetti diversi del fenomeno specifico oggetto di studio e dalla metodologia scientifica impiegata, dipende dalle ipotesi teoriche, dalle forme funzionali utilizzate, sulla variabilità osservata della serie ...

Ma finiamo in modo positivo: al giorno d'oggi, la potenza del computer sostituisce molte cose. Quindi potremmo simulare e testare la validità dell'approssimazione del 2 ° ordine, per una vasta gamma di valori della variabile a buon mercato, sia che lavoriamo su un problema teorico o empirico.


8

Non una risposta reale, ma un esempio per dimostrare che le cose non sono così belle e che sono necessarie ulteriori ipotesi per rendere vero questo risultato.

Definisci come una miscela tra una uniforme e una normale , il componente uniforme scelto con probabilità e il normale con probabilità . Hai e la sua varianza converge a quando va all'infinito, come se non sbaglio.XnU([1n;1n])N(nn1,1n)1n11n=n1nE(Xn)=10n

E(Xn2)=13n2×1n+((nn1)2+1n)×n1n,

Ora definisci (e o altro). Le variabili casuali sono ben definite ma non hanno un valore atteso, poiché non è definito, non importa quanto sia grande .f(x)=1/xf(0)=0f(Xn)

1n1n1xdx
n

La mia conclusione è che hai chiaramente bisogno di ipotesi sul comportamento globale di oppure - più probabilmente, più elegantemente - sulla velocità con cui la densità di decade quando sei lontano dal valore atteso. Sono sicuro che tali ipotesi possano essere trovate nella letteratura classica (e persino nei libri di testo), sfortunatamente la mia formazione non era in statistica e continuo a lottare con la letteratura da sola ... comunque spero che questo abbia aiutato.fXn

PS. Questo esempio non è un controesempio alla risposta di Nick? Chi ha torto allora?


1
Un'affermazione più generale del tuo argomento è che esiste ed è finito perE[Xk]k=1,2,3
Probislogic

Penso che il mio commento sopra non sia corretto - ciò che dovrebbe essere lì è che la funzione ammette un'espansione della serie Taylor nel punto . Nell'esempio fornito, hai che non è continuo in . Penso che questo significhi che non può essere espanso in una serie di Taylor per il tuo esempio. f(x)x=μf(x)=1xx=0f
Probislogic,

Può essere, a . Poi c'è il raggio di convergenza ... Potrebbe essere necessario un raggio infinito di convergenza ?! Questo è un requisito forte. μ=1
Elvis,

1
Elvis, sì, abbiamo bisogno di una condizione globale. In sostanza, il resto deve comportarsi bene dopo essere stato ponderato dalle code della distribuzione. Per qualcosa di simile al tuo esempio che è venuto fuori di recente, vedi qui , qui e qui .
cardinale il

4

Questa non è una risposta completa, ma solo un modo diverso di arrivare all'approssimazione del secondo ordine.

Penso che il modo migliore per andare sia usare il teorema del valore medio di Cauchy, piuttosto che lavorare con il termine residuo di una serie di Taylor. Se lo applichiamo una volta, abbiamo

f(X)=f(μ)+f(ξ1)(Xμ)

per alcuni quando o quando . Ora applichiamo nuovamente il teorema del valore medio su e abbiamoXξ1μXμXξ1μXμf(ξ1)

f(ξ1)=f(μ)+f(ξ2)(ξ1μ)

per alcuni quando o quando . mettendo questo nella prima fomula dàXξ1ξ2μXμXξ1ξ2μXμ

f(X)=f(μ)+f(μ)(Xμ)+f(ξ2)(ξ1μ)(Xμ)

Si noti che questo risultato richiede solo che sia continuo e due volte differenziabile tra e . Tuttavia, questo vale solo per una fissa e la modifica di significherà una corrispondente modifica in . Il metodo delta del secondo ordine può essere visto come il presupposto globale che e sull'intero intervallo del supporto di , o almeno sulla regione di massa ad alta probabilità.X μ X X ξ i ξ 1 - μ = 1fXμXXξiξ2=μXξ1μ=12(Xμ)ξ2=μX

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.