Sommario
Condivido i miei pensieri nella sezione Dettagli . Penso che siano utili per identificare ciò che vogliamo davvero ottenere.
Penso che il problema principale qui sia che non hai definito cosa significhi una somiglianza di rango. Pertanto, nessuno sa quale metodo di misurazione della differenza tra i ranghi sia migliore.
In effetti, questo ci lascia a scegliere ambiguamente un metodo basato su ipotesi.
Quello che suggerisco davvero è di definire innanzitutto un obiettivo di ottimizzazione matematica. Solo così saremo sicuri di sapere davvero cosa vogliamo.
A meno che non lo facciamo, non sappiamo davvero cosa vogliamo. Potremmo quasi sapere cosa vogliamo, ma quasi sapere sapere .≠
Il mio testo in Dettagli è essenzialmente un passo verso il raggiungimento di una definizione matematica della somiglianza dei ranghi . Una volta risolto il problema, possiamo andare avanti con fiducia per scegliere il metodo migliore per misurare tale somiglianza.
Dettagli
Basato su uno dei tuoi commenti:
- " L'obiettivo è vedere se le classifiche dei due gruppi differiscono ", Peter Flom.
Per rispondere a questa interpretazione rigorosa dell'obiettivo:
- I ranghi sono diversi se, qualsiasi elemento , esiste i tale che a i ≠ b i , dove a i è il grado dell'elemento i per gruppo a e b i è il grado dello stesso articolo ma per gruppo b .io ∈ { 1 , 2 , … , 25 }ioun'io≠ bioun'ioioun'BioB
- Altrimenti, i ranghi non sono diversi.
Ma non penso che tu voglia davvero quella rigida interpretazione. Pertanto, penso che ciò che intendevi davvero dire è:
- Come diverse sono le fila dei gruppi e B ?un'B
Una soluzione qui è semplicemente misurare la distanza minima di modifica . Vale a dire qual è il numero minimo di modifiche che devono essere eseguite nell'elenco classificato del gruppo a in tale che diventi identico a quello del gruppo b .un'B
Una modifica può essere definita come scambio di due elementi e costa punti in base al numero di hop necessari. Quindi, se l'articolo 1 ha bisogno di essere scambiati con articolo 3 (al fine di ottenere ranghi identici tra quelli dei gruppi un e b ), allora il costo di questa modifica è 3 .n13un'B3
Ma questo metodo è adatto? Per rispondere a questo, diamo un'occhiata più in profondità:
Non è normalizzato. Se diciamo che la distanza tra i ranghi dei gruppi è 3 , mentre la distanza tra i ranghi dei gruppi c , d è 123 , non significa necessariamente che a , b siano più simili tra loro rispetto a c , d siano tra loro (potrebbe anche significare che c , d stavano classificando un insieme di oggetti molto più grande).a , b3c , d123a , bc , dc , d
Presuppone che il costo di ogni modifica sia lineare rispetto al numero di hop. Questo è vero per il nostro dominio di applicazione? Potrebbe essere che una relazione logistica sia più adatta? O esponenziale ?
15
Dopo aver affrontato i punti sopra e raggiunto una misura adeguata di somiglianza tra due gradi, dovremo quindi porre domande più interessanti, come:
the best ways to compare these rankings
: che tipo di differenza tra i 2 gruppi vorresti sapere?