Come posso ordinare o classificare un gruppo di esperti?


11

Ho un database contenente un gran numero di esperti in un campo. Per ciascuno di quegli esperti ho una varietà di attributi / punti dati come:

  • numero di anni di esperienza.
  • licenze
  • numero di recensioni
  • contenuto testuale di tali recensioni
  • La valutazione a 5 stelle su ciascuna di queste recensioni, per una serie di fattori come velocità, qualità ecc.
  • premi, assoszioni, conferenze ecc.

Voglio fornire una valutazione a questi esperti, su 10, in base alla loro importanza. Alcuni punti dati potrebbero non essere disponibili per alcuni esperti. Ora la mia domanda è: come faccio a elaborare un tale algoritmo? Qualcuno può indicarmi un po 'di letteratura pertinente?

Inoltre sono preoccupato che, come in tutte le valutazioni / recensioni, i numeri potrebbero accumularsi vicino ad alcuni valori. Ad esempio, la maggior parte di essi potrebbe finire per ottenere un 8 o un 5. Esiste un modo per evidenziare piccole differenze in una differenza maggiore nel punteggio solo per alcuni degli attributi.

Alcune altre discussioni che ho immaginato potrebbero essere rilevanti:


Non si può fare a meno che non si raggiunga un criterio oggettivo; probabilmente la maggior parte delle valutazioni possibili può essere costruita con una combinazione dei tuoi parametri.

Risposte:


12

Le persone hanno inventato numerosi sistemi per classificare le cose (come gli esperti) su più criteri: visitare la pagina di Wikipedia sull'analisi delle decisioni a più criteri per un elenco. Non ben rappresentato lì, però, è uno dei metodi più difendibili là fuori: teoria della valutazione multi attributo. Ciò include una serie di metodi per valutare i compromessi tra serie di criteri al fine di (a) determinare un modo appropriato per riesprimere i valori delle singole variabili e (b) ponderare i valori re-espressi per ottenere un punteggio per la classifica . I principi sono semplici e difendibili, la matematica è impareggiabile e non c'è nulla di stravagante nella teoria. Più persone dovrebbero conoscere e praticare questi metodi piuttosto che inventare sistemi di punteggio arbitrari.


Conosci il pacchetto R per fare questo?
user333

3
@utente No, e dubito che ce ne sia uno. Non c'è nessun proiettile di software magico qui, a proposito: quasi tutto il lavoro implica pensare attraverso i problemi ed esplorare specifici compromessi in modo controllato.
whuber

3

In definitiva, questo potrebbe non essere solo un esercizio statistico. PCA è un metodo quantitativo molto potente che ti permetterà di generare un punteggio o pesi sui suoi primi componenti principali che puoi usare per classificare. Tuttavia, spiegare quali sono i componenti principali è molto impegnativo. Sono costrutti quantitativi. Non sono dialettici. Pertanto, a volte spiegare cosa significano veramente non è possibile. Ciò è particolarmente vero se si dispone di un pubblico non quantitativo. Non avranno idea di cosa tu stia parlando. E penserò al tuo PCA come una scatola nera criptica.

Invece, vorrei semplicemente allineare tutte le variabili rilevanti e utilizzare un sistema di ponderazione basato su ciò che si pensa che dovrebbe essere la ponderazione.

Penso che se lo svilupperai per estranei, clienti, utenti, sarebbe bello se tu potessi incorporare la flessibilità di decidere la ponderazione per gli utenti.
Alcuni utenti possono valutare anni di esperienza molto più della certificazione e viceversa. Se puoi lasciare quella decisione a loro. In questo modo il tuo algoritmo non è una scatola nera che non comprendono e non sono a loro agio. Lo mantieni totalmente trasparente e dipende da loro in base alla loro valutazione relativa di ciò che conta.


@Gaetan Bene, per PCA devi trovare una codifica numerica adatta per variabili come "contenuto testuale" ...
chl

Non è questo il problema che sto sollevando. PCA può gestire variabili fittizie come suggerisci. PCA è incredibilmente potente e flessibile in questo modo. Ma è l'interpretazione dei componenti principali che diventa davvero stimolante. Diciamo che il primo componente principale inizia in questo modo: 0,02 anni di esperienza - 0,4 contenuti testuali di recensioni + 0,01 associazioni ... Forse puoi spiegarlo. Una performance di esperti è proporzionale ad anni di esperienza, ma inversamente proporzionale al contenuto testuale delle recensioni? Sembra assurdo. Ma la PCA genera spesso risultati contro-intuitivi.
Sympa,

@Gaetan Tuttavia, ribadisco la mia opinione che il problema risiede nel modo in cui scegli di rappresentare le tue variabili (o come trovi una metrica utile). Concordo con te sulla difficoltà di interpretare una combinazione lineare di variabili quando si ha a che fare con misurazioni non continue o un mix di tipi di dati. Questo è il motivo per cui ho suggerito in un altro commento di cercare metodi fattoriali alternativi. In ogni caso, lo sviluppo di regole di punteggio basate sulle preferenze dell'utente o sulla revisione di esperti (come avviene nella valutazione clinica) richiede anche un certo tipo di convalida statistica (almeno per garantire l'affidabilità dei punteggi).
chl

@Gaetan, Sì, alcuni dei tuoi commenti hanno molto senso, e hai ragione nel dire che non è solo un esercizio statistico ma coinvolge elementi che sono più soggettivi. Il motivo è che l'intento dal punto di vista dell'utente / dei clienti potrebbe essere diverso. Supponendo che stia facendo una ricerca di un esperto, quindi aggiungo solo filtri per consentirgli di selezionare esperti> X numero di anni di esperienza e così via Ma diciamo che è ristretto a 2 esperti e vuole un confronto indipendente. Quindi sto solo cercando un metodo generico per confrontare due esperti.
Sidmitra,

2
+1 per sottolineare questo non è un esercizio statistico. Nella migliore delle ipotesi, PCA può descrivere le relazioni all'interno di un particolare set di dati e, presumibilmente, semplificare i dati identificando quasi collinearità. Non è chiaro come può informarci su come classificare gli esperti.
whuber

0

Pensi di poter quantificare tutti quegli attributi?

In caso affermativo, suggerirei di eseguire un'analisi del componente principale. Nel caso generale in cui tutte le correlazioni sono positive (e se non lo sono, puoi arrivarci facilmente usando una trasformazione), il primo componente principale può essere considerato come una misura dell'importanza totale dell'esperto, poiché è ponderato media di tutti gli attributi (e i pesi sarebbero i contributi corrispondenti delle variabili - In questa prospettiva, il metodo stesso rivelerà l'importanza di ciascun attributo). Il punteggio che ogni esperto ottiene nel primo componente principale è ciò di cui hai bisogno per classificarli.


1
Sembra carino, ma non sceglierà solo gli attributi con la varianza più alta e i più grandi cluster di quelli con correlazione incrociata?

1
In alternativa, è possibile eseguire analisi di corrispondenza multipla o analisi a più fattori per dati misti (se la ricodifica numerica risulta non realistica per alcune variabili) e si applica il resto dell'idea (calcolo dei punteggi dei fattori e visualizzazione dei caricamenti variabili nella 1a dimensione) anche.
chl

3
Mi sembra che il primo componente indicherà semplicemente una forte direzione di comunanza tra gli esperti. Ma come potrebbe dirci chi è il migliore e chi è il peggio? Ciò richiede ulteriori informazioni riguardanti le relazioni tra queste variabili e la qualità di essere un esperto "buono" o "cattivo". Se crediamo che tutte le variabili siano associate monotonicamente al bene o al male, allora forse il PCA può aiutarci a esplorare la frontiera degli esperti estremi (o forse solo periferici!). Attenzione però: anche il presupposto della monotonicità è sospetto.
whuber

1
@whuber Vedo il punto, grazie. Forse potresti aggiungere questo nella tua risposta (che è molto gradita)?
chl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.