Quali sono i dati collegati nel contesto di un coefficiente di correlazione dei ranghi?


16

Non sono nel campo delle statistiche.

Durante la lettura dei coefficienti di correlazione dei ranghi ho visto la parola "dati collegati".

  • Cosa sono i dati collegati?
  • Qual è un esempio di dati collegati?

Risposte:


5

Significa dati che hanno lo stesso valore; ad esempio se si dispone di 1,2,3,3,4 come set di dati, i due 3 sono dati collegati. Se si dispone di 1,2,3,4,5,5,5,6,7,7 come set di dati, i 5 e i 7 sono dati collegati.


14

I "dati collegati" emergono nel contesto di test statistici non parametrici basati sul rango.

Test non parametrici : test che non assumono una particolare distribuzione di probabilità, ad esempio non assumono una curva a campana.

basato su ranking : una vasta classe di test non parametrici inizia convertendo i numeri (ad esempio "3 giorni", "5 giorni" e "4 giorni") in ranghi (ad esempio "durata più breve (3 °)", "durata più lunga (1st) "," seconda durata più lunga (2nd) "). Un metodo di test parametrico tradizionale viene quindi applicato a questi gradi.

I dati collegati sono un problema poiché i numeri identici ora devono essere convertiti in rango. A volte i ranghi vengono assegnati in modo casuale, a volte viene utilizzato un rango medio. Ancora più importante, un protocollo per rompere i ranghi legati deve essere descritto per la riproducibilità del risultato.


5

Sono semplicemente due valori di dati identici, come osservare 7 due volte nello stesso set di dati.

Ciò emerge nel contesto di metodi statistici che presuppongono che i dati abbiano una misurazione continua e quindi identici sono impossibili (o tecnicamente, i valori identici di probabilità sono zero). Complicazioni pratiche sorgono quando questi metodi vengono applicati a dati arrotondati o troncati in modo che misure identiche non siano solo possibili ma abbastanza comuni.


1
Non sono d'accordo con questo ragionamento poiché non puoi dirlo a causa della sua probabilità zero che questo evento non possa mai accadere. Questo non è un buon ragionamento.
Henry.L

2

La domanda è di fondamentale importanza:

Che cos'è un'osservazione / dati / coppia legata?

Anche se spesso menzionato solo in metodi non parametrici, questa nozione è indipendente dai metodi non parametrici. È menzionato nei metodi non parametrici perché questa situazione causerà complicazioni di calcolo nell'ottenere le statistiche utilizzate nei metodi non parametrici, come le statistiche classificate firmate Wilcoxon T+ .

(Quindi non credo che la risposta di @ Ming-Chih Kao sia corretta introducendo prima i test non parametrici. Ma poiché il titolo è "Quali sono i dati collegati nel contesto di un coefficiente di correlazione dei ranghi?", Lo comprerò.)

Zio=Xio-Yio

(Xio,Yio)

Zio

Zio

|Zio|

{(1,-1)(1,-1)},{(1,2)(1,2)(2,1)(2,1)(2,3)(2,3)(3,2)},{(3,0)} Attenzione che la parentesi non significa un set ma solo una notazione.

Proviamo il modo molto semplice per farlo, ci posizioniamo da sinistra a destra e diamo:

Rio: 8 1 2 9 3 4 5 6 7 10

Ma anche qui dovremmo chiederci perché così un altro ranking non sia adatto poiché non c'è differenza tra quelli identici |Zio|è come:

Rio: 8 7 6 9 5 4 3 2 1 10

Therefore we may just take the mean of those identical |Zi|e assegnare di nuovo:

Rio: 8 7 6 9 5 4 3 2 1 10

L'audace rappresenta il primo gruppo legato costituito da quelli |Zio|=1osservazioni; il corsivo rappresenta il secondo gruppo legato costituito da quelli|Zio|=2 osservazioni.

Assegniamo a ciascuna osservazione nel primo gruppo il grado1++77=4; assegniamo a ciascuna osservazione nel secondo gruppo il grado8+92=8.5. Pertanto abbiamo:

Rio: 8.5 4 4 8.5 4 4 4 4 4 10

Ciò ha modificato le classifiche e ha fatto in modo che ciascuna osservazione legata abbia la stessa influenza nel calcolo delle statistiche classificate, quindi nel test di classifica.

Quali sono le soluzioni all'osservazione / dati / coppia collegati?

(1) Assegna il rango medio. Questo è proprio quello che abbiamo fatto sopra. Assegnando lo stesso rango ai dati collegati nello stesso gruppo, facciamo ugualmente la loro influenza nel test classificato e quindi eliminiamo la possibile inesattezza causata da osservazioni legate.

(2) Assegna il grado casuale. Basta assegnare i ranghi in modo casuale a ciascuno degli elementi del gruppo legato. L'unica limitazione è quellaMun'XRun'nKfiorStgroup<MionRun'nKSecondgroup da allora se Mun'XRun'nKfiorStgroup>MionRun'nKSecondgroup, that breaks the ranking law; if MaxRankfirstgroup=MinRanksecondgroup, then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in ϵ manner.

(@La risposta di John D. Cook è un po 'fuorviante in questo modo. Un modo migliore per dire questo punto è che quando la distribuzione è continua, PX=X=0. Tuttavia, dovremo osservare i legami poiché la nostra misurazione ha una precisione limitata, vale a dire che qualsiasi spazio campione nella realtà è in realtà finito.) (La risposta di @ quarkdown27 è semplice ma corretta in ogni parola).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.