Confronto di elenchi classificati


15

Supponiamo che due gruppi, composti da e n 2, ciascuno classifichi un insieme di 25 elementi dal più al meno importante. Quali sono i modi migliori per confrontare queste classifiche?n1n2

Chiaramente, è possibile eseguire 25 test di Mann-Whitney U, ma ciò comporterebbe 25 risultati di test da interpretare, che possono essere troppo (e, in uso rigoroso, sollevano domande di confronti multipli). Inoltre non è del tutto chiaro per me che i ranghi soddisfino tutti i presupposti di questo test.

Sarei anche interessato a suggerimenti per la letteratura sulla valutazione vs. classifica.

Alcuni contesti: questi 25 articoli riguardano tutti l'educazione e i due gruppi sono diversi tipi di educatori. Entrambi i gruppi sono piccoli.

EDIT in risposta a @ttnphns:

Non intendevo confrontare la classifica totale degli elementi nel gruppo 1 con il gruppo 2 - sarebbe una costante, come sottolinea @ttnphns. Ma le classifiche nel gruppo 1 e nel gruppo 2 differiranno; vale a dire, il gruppo 1 può classificare l'elemento 1 in più rispetto al gruppo 2.

Potrei confrontarli, articolo per articolo, ottenendo il rango medio o mediano di ciascun oggetto e facendo 25 test, ma mi chiedevo se ci fosse un modo migliore per farlo.


1
Se ogni persona ha classificato 25 voci rispetto alla somma tra le 25 variabili è una costante (325). Detto questo, cosa intendi dire the best ways to compare these rankings: che tipo di differenza tra i 2 gruppi vorresti sapere?
ttnphns

2
Forse per calcolare la mediana di Kemeny per ciascun gruppo? Non l'ho fatto da solo e non so se i 2 risultati potrebbero essere confrontati statisticamente (cioè con l'inferenza sulla popolazione).
ttnphns

1
Un'altra opzione potrebbe essere la ripetizione di misure di regressione ordinale (in cui l'interazione tra il fattore di gruppo e il fattore rm saranno i tuoi interessi); questo può essere fatto tramite il modello GEE con distribuzione multinomiale e collegamento logit. Ma, ancora una volta, poiché la somma su 25 articoli è una costante, non posso dire ora se è matematicamente valida.
ttnphns

2
Non ho il libro addosso, ma "Measurement Theory and Practice" di D Hand discute alcune questioni che sembrano simili a questa. Cosa in particolare vuoi sapere della "differenza" in classifica. Ad esempio, non è possibile creare prima una classifica aggregata per ciascun gruppo e quindi prendere la correlazione della classifica?
Corone

2
@PeterFlom Hai finalmente trovato una soluzione per il confronto dei ranghi? Se sì, ti dispiacerebbe pubblicarlo? :)
Mark Heckmann,

Risposte:


6

Sommario

Condivido i miei pensieri nella sezione Dettagli . Penso che siano utili per identificare ciò che vogliamo davvero ottenere.

Penso che il problema principale qui sia che non hai definito cosa significhi una somiglianza di rango. Pertanto, nessuno sa quale metodo di misurazione della differenza tra i ranghi sia migliore.

In effetti, questo ci lascia a scegliere ambiguamente un metodo basato su ipotesi.

Quello che suggerisco davvero è di definire innanzitutto un obiettivo di ottimizzazione matematica. Solo così saremo sicuri di sapere davvero cosa vogliamo.

A meno che non lo facciamo, non sappiamo davvero cosa vogliamo. Potremmo quasi sapere cosa vogliamo, ma quasi sapere sapere .

Il mio testo in Dettagli è essenzialmente un passo verso il raggiungimento di una definizione matematica della somiglianza dei ranghi . Una volta risolto il problema, possiamo andare avanti con fiducia per scegliere il metodo migliore per misurare tale somiglianza.

Dettagli

Basato su uno dei tuoi commenti:

  • " L'obiettivo è vedere se le classifiche dei due gruppi differiscono ", Peter Flom.

Per rispondere a questa interpretazione rigorosa dell'obiettivo:

  • I ranghi sono diversi se, qualsiasi elemento , esiste i tale che a ib i , dove a i è il grado dell'elemento i per gruppo a e b i è il grado dello stesso articolo ma per gruppo b .io{1,2,...,25}ioun'ioBioun'ioioun'BioB
  • Altrimenti, i ranghi non sono diversi.

Ma non penso che tu voglia davvero quella rigida interpretazione. Pertanto, penso che ciò che intendevi davvero dire è:

  • Come diverse sono le fila dei gruppi e B ?un'B

Una soluzione qui è semplicemente misurare la distanza minima di modifica . Vale a dire qual è il numero minimo di modifiche che devono essere eseguite nell'elenco classificato del gruppo a in tale che diventi identico a quello del gruppo b .un'B

Una modifica può essere definita come scambio di due elementi e costa punti in base al numero di hop necessari. Quindi, se l'articolo 1 ha bisogno di essere scambiati con articolo 3 (al fine di ottenere ranghi identici tra quelli dei gruppi un e b ), allora il costo di questa modifica è 3 .n13un'B3

Ma questo metodo è adatto? Per rispondere a questo, diamo un'occhiata più in profondità:

  • Non è normalizzato. Se diciamo che la distanza tra i ranghi dei gruppi è 3 , mentre la distanza tra i ranghi dei gruppi c , d è 123 , non significa necessariamente che a , b siano più simili tra loro rispetto a c , d siano tra loro (potrebbe anche significare che c , d stavano classificando un insieme di oggetti molto più grande).un',B3c,d123un',Bc,dc,d

  • Presuppone che il costo di ogni modifica sia lineare rispetto al numero di hop. Questo è vero per il nostro dominio di applicazione? Potrebbe essere che una relazione logistica sia più adatta? O esponenziale ?

  • 15

Dopo aver affrontato i punti sopra e raggiunto una misura adeguata di somiglianza tra due gradi, dovremo quindi porre domande più interessanti, come:

  • un'B

5

Questo suona come il "test del grado firmato da Willcoxon" ( link di Wikipedia ). Supponendo che i valori dei tuoi ranghi provengano dallo stesso insieme (cioè [1, 25]), allora questo è un test di differenza accoppiata (con l'ipotesi nulla che queste coppie siano state scelte casualmente). NB questo è un punteggio di dis-somiglianza!

Ci sono entrambe Re Pythonimplementazioni collegate in quella pagina wiki.


Interessante. Non avevo sentito parlare di una differenza accoppiata Wilcoxon.
Peter Flom - Ripristina Monica

3

Avvertenza: è un'ottima domanda e non conosco la risposta, quindi questo è molto più di un "cosa farei se dovessi":

In questo problema ci sono molti gradi di libertà e molti confronti si possono fare, ma con dati limitati si tratta davvero di aggregare i dati in modo efficiente. Se non sai quale test eseguire, puoi sempre "inventarlo" usando le permutazioni:

Innanzitutto definiamo due funzioni:

  • Funzione di voto : come segnare le classifiche in modo da poter combinare tutte le classifiche di un singolo gruppo. Ad esempio, è possibile assegnare 1 punto all'elemento in primo piano e 0 a tutti gli altri. Perderesti molte informazioni, quindi forse è meglio usare qualcosa del tipo: l'oggetto in primo piano ottiene 1 punto, il secondo in classifica 2 punti, ecc.

  • Funzione di confronto : come confrontare due punteggi aggregati tra due gruppi. Dato che entrambi saranno un vettore, prendere una norma adeguata della differenza funzionerebbe.

Ora procedi come segue:

  1. Calcola innanzitutto una statistica di prova calcolando il punteggio medio utilizzando la funzione di voto per ciascun elemento tra i due gruppi, questo dovrebbe portare a due vettori della dimensione 25.
  2. Quindi confrontare i due risultati utilizzando la funzione di confronto, questa sarà la statistica del test.

Il problema è che non conosciamo la distribuzione della statistica test sotto zero che entrambi i gruppi sono uguali. Ma se sono uguali, possiamo mescolare casualmente le osservazioni tra i gruppi.

n1

Ripeti il ​​processo circa 1000 volte e ora utilizza le statistiche del test di permutazione come distribuzione null empirica. Ciò ti consentirà di calcolare un valore p e non dimenticare di creare un bel istogramma e tracciare una linea per la statistica del test in questo modo:

test di permutazione istogramma l1

l1l1l2

test di permutazione istogramma l2

Ma a seconda dell'impostazione, mi aspetto che ci possa essere molta casualità intrinseca e avrai bisogno di una dimensione del campione abbastanza grande per avere un metodo catch-all. Se hai una conoscenza preliminare di cose specifiche che ritieni possano essere diverse tra i due gruppi (ad esempio elementi specifici), usa quella per personalizzare le tue due funzioni. (Certo, il solito lo fa prima di eseguire il test e non scegliere i progetti finché non si ottiene qualcosa di significativo )

PS inviami un messaggio se sei interessato al mio codice (disordinato). È un po 'troppo lungo da aggiungere qui, ma sarei felice di caricarlo.


Mi piace davvero questa idea.
Peter Flom - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.