@Silverfish ha chiesto un'espansione della risposta di PolatAlemdar, che non è stata data, quindi cercherò di ampliarla qui.
Perché il nome chisquare distanza? Il test chisquare per le tabelle di contingenza si basa su
così l'idea è di mantenere questa forma e utilizzarlo come una misura di distanza. Ciò fornisce la terza formula del PO, conxiinterpretata come osservazione eyicome aspettativa, il che spiega il commento di PolatAlemdar "È usato in distribuzioni di probabilità discrete", come ad esempio nella bontà del test di adattamento. Questa terza forma ènonuna funzione di distanza, come è asimmetrica nelle variabilixedy. Per confronto istogramma, ci vorranno una funzione distanza che è simmetrico inxedy, e le due prime forme dare questo. La differenza tra loro è solo un fattore costante1
χ2=∑cells(Oi−Ei)2Ei
xiyixyxy , che non è importante finché si sceglie semplicemente una forma in modo coerente (anche se la versione con fattore aggiuntivo
112 è meglio se si desidera confrontare con la forma asimmetrica). Nota la somiglianza in queste formule con distanza euclidea quadrata, che non è una coincidenza, la distanza chisquare è una specie didistanza euclidea
ponderata. Per tale motivo, le formule nel PO vengono generalmente inserite sotto un segno radice per ottenere le
distanze. Di seguito seguiamo questo.
12
La distanza di Chisquare viene utilizzata anche nell'analisi della corrispondenza. Per visualizzare il rapporto di forma ivi utilizzato, lasciate essere le celle di una tabella di contingenza con R righe e C colonne. Indica che i totali delle righe sono x + j = ∑ i x i j e i totali delle colonne di x i + = ∑ j x i j . La distanza chisquare tra le file l , k è data da
χ 2 ( l , k ) =xijRCx+j=∑ixijxi+=∑jxijl,k
Per il caso con solo due righe (i due istogrammi) vengono recuperate la prima formula dell'OP (modulo il segno radice).
χ2(l,k)=∑j1x+j(xljxl+−xkjxk+)2−−−−−−−−−−−−−−−−−−−⎷
EDIT
Rispondere alla domanda nei commenti seguenti: Un libro con lunghe discussioni sulla distanza chisquare è "ANALISI DI CORRISPONDENZA IN PRATICA (Seconda Edizione)" di Michael Greenacre (Chapman & Hall). È un nome ben definito, derivante dalla sua somiglianza con chisquare utilizzato con le tabelle di contingenza. Che distribuzione ha? Non l'ho mai studiato, ma probabilmente (in alcune condizioni ...) avrebbe una distribuzione chisquare, approssimativamente. Le prove dovrebbero essere simili a quanto si fa con le tabelle di contingenza, la maggior parte della letteratura sull'analisi della corrispondenza non va nella teoria della distribuzione. Un documento che ha una teoria del genere, forse pertinente, è http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Vedi anche/stats//search?q=%22chisquare+distance%22 per alcuni altri post pertinenti su questo sito.