Qual è la somma delle variate quadrate?


20

Lascia che sia tratto da una distribuzione t di Student con gradi di libertà, per dimensioni moderate (diciamo meno di 100). Definisci è distribuito quasi come un chi-quadrato con gradi di libertà? Esiste qualcosa come il Teorema del limite centrale per la somma delle variabili casuali al quadrato? n n T = 1 i k t 2 i T ktinn

T=1ikti2
Tk

@suncoolsu: dice "quasi" ...
shabbychef,

Mie scuse. non l'ho visto.
suncoolsu,

Risposte:


14

Rispondere alla prima domanda.

Potremmo iniziare dal fatto notato da mpiktas, che . E poi prova un passaggio più semplice all'inizio: cerca la distribuzione di una somma di due variabili casuali distribuite da . Ciò potrebbe essere fatto calcolando la convoluzione di due variabili casuali o calcolando il prodotto delle loro funzioni caratteristiche.F ( 1 , n )t2F(1,n)F(1,n)

L' articolo di PCB Phillips mostra che la mia prima ipotesi su "funzioni ipergeometriche [confluenti] coinvolte" era davvero vera. Significa che la soluzione non sarà banale e la forza bruta è complicata, ma condizione necessaria per rispondere alla tua domanda. Quindi, poiché è fisso e si sommano le distribuzioni t, non si può dire con certezza quale sarà il risultato finale. A meno che qualcuno non abbia una buona abilità giocando con prodotti di confluenti funzioni ipergeometriche.n


2
+1 per il collegamento, non sapeva che la funzione caratteristica della distribuzione F era così complicata.
mpiktas,

14

Non è nemmeno un'approssimazione stretta. Per piccolo , l'attesa di uguale a mentre l'attesa di uguale a . Quando è piccolo (meno di 10, diciamo), gli istogrammi di e di non hanno nemmeno la stessa forma, indicando che lo spostamento e il riscatto di non lo faranno ancora opera.T k nnT χ2(k)kklog(T)log(χ2(k))Tknn2χ2(k)kklog(T)log(χ2(k))T

Intuitivamente, per piccoli gradi di libertà, la di Student ha la coda pesante. La quadratura enfatizza questa pesantezza. Le somme quindi saranno più distorte - di solito molto più inclinate - delle somme di normali quadrate (la distribuzione ). Calcoli e simulazioni lo confermano.χ 2tχ2


Illustrazione (come richiesto)

testo alternativo

Ogni istogramma raffigura una simulazione indipendente di 100.000 prove con i gradi di libertà ( ) e le somme ( ) specificati, standardizzati come descritto da @mpiktas. Il valore di nella riga inferiore approssima il caso . Quindi puoi confrontare con scansionando ogni colonna.k n = 9999 χ 2 T χ 2nkn=9999χ2Tχ2

Si noti che la standardizzazione non è possibile per perché non esistono nemmeno i momenti appropriati. La mancanza di stabilità della forma (durante la scansione da sinistra a destra su qualsiasi riga o dall'alto verso il basso su qualsiasi colonna) è ancora più marcata per .n 4n<5n4


Ne avevo paura, ma pensavo che la somma avrebbe portato un po 'le code.
Shabbychef,

Ho anche pensato di produrre una sorta di esperimenti di Monte Carlo, cercando di vedere per quale e l'approssimazione potrebbe essere abbastanza vicina a , probabilmente cui abbiamo bisogno qui. Ma per i piccoli e soprattutto sarà davvero molto pesante. Potresti aggiungere qui questi due istogrammi, solo per le persone pigre come me? k χ 2 ( k ) k ( n ) knkχ2(k)k(n)kn
Dmitrij Celov,

@Dmitrij Le simulazioni sono veloci (ci vuole più tempo per disegnare gli istogrammi), quindi ne ho aggiunti 12.
whuber

+1 per la figura. Le illustrazioni sono sempre belle da vedere.
Dmitrij Celov il

7

Risponderò alla seconda domanda. Il teorema del limite centrale è per qualsiasi sequenza iid, quadrata o non quadrata. Quindi nel tuo caso se è sufficientemente grande abbiamok

TkE(t1)2kVar(t12)N(0,1)

dove e sono rispettivamente la media e la varianza della distribuzione t di Student al quadrato con gradi di libertà. Si noti che è distribuito come distribuzione F con e gradi di libertà. Quindi possiamo prendere le formule per media e varianza dalla pagina di Wikipedia . Il risultato finale è quindi: V a r ( t 2 1 ) n t 2 1 1 nEt12Var(t12)nt121n

Tknn2k2n2(n1)(n2)2(n4)N(0,1)


1
T di Hotelling 2: (f - d + 1) / fd T ^ 2 ∼ F (d, f + 1 - d)
DWin

1
@Vinci, non sono così sicuro che di Hotelling sia davvero applicabile qui. Almeno dalle formule dalla pagina di Wikipedia non è immediatamente chiaro cheT2TT2

F(1,n)+F(1,n)

Credo che si riduca alla tua situazione quando la matrice di varianza è diagonale. Gli elementi fuori diagonale da un campione dovrebbero essere vicini allo zero se i campioni provenivano da Normale, ma potrebbero non essere esattamente zero se da t. Tuttavia, hai chiesto qualcosa di approssimativo, quindi penso che la risposta sia probabilmente F in quella condizione.
DWin

F(1,n)F
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.