Creazione di un indice di qualità da più variabili per abilitare l'ordinamento dei ranghi

22

Ho quattro variabili numeriche. Tutti loro sono misure della qualità del suolo. Maggiore è la variabile, maggiore è la qualità. La gamma per tutti loro è diversa:

Var1 da 1 a 10

Var2 da 1000 a 2000

Var3 da 150 a 300

Var4 da 0 a 5

Devo combinare quattro variabili in un singolo punteggio di qualità del suolo che classificherà con successo l'ordine.

La mia idea è molto semplice Standardizza tutte e quattro le variabili, riassumendole e qualunque cosa tu ottenga è il punteggio che dovrebbe classificare. Vedi qualche problema con l'applicazione di questo approccio. C'è qualche altro approccio (migliore) che consiglieresti?

Grazie

Modificare:

Grazie ragazzi. Molta discussione è stata dedicata all '"esperienza di dominio" ... Cose sull'agricoltura ... Mentre mi aspettavo più statistiche. In termini di tecnica che userò ... Sarà probabilmente una semplice somma di z-score + regressione logistica come esperimento. Poiché la stragrande maggioranza dei campioni ha una qualità scadente del 90%, combinerò 3 categorie di qualità in una e fondamentalmente ho un problema binario (unicità o una non qualità). Uccido due uccelli con una fava. Aumento il mio campione in termini di frequenza degli eventi e utilizzo gli esperti facendoli classificare i miei campioni. Verranno quindi utilizzati campioni classificati dagli esperti per adattare il modello log-reg per massimizzare il livello di concordanza / discordanza con gli esperti .... Come ti sembra?

ranking valuation

— user333
fonte

19

L'approccio proposto può dare un risultato ragionevole, ma solo per caso. A questa distanza - cioè prendendo la domanda al valore nominale, con il significato delle variabili mascherate - alcuni problemi sono evidenti:

Non è nemmeno evidente che ogni variabile sia positivamente correlata alla "qualità". Ad esempio, cosa succede se un 10 per 'Var1' significa che la "qualità" è peggiore della qualità quando Var1 è 1? Quindi aggiungerlo alla somma è una cosa più sbagliata che si possa fare; deve essere sottratto.
La standardizzazione implica che la "qualità" dipende dal set di dati stesso. Pertanto, la definizione cambierà con set di dati diversi o con aggiunte ed eliminazioni a questi dati. Ciò può trasformare la "qualità" in un costrutto arbitrario, transitorio, non oggettivo e impedire il confronto tra set di dati.
Non esiste una definizione di "qualità". Cosa dovrebbe significare? Capacità di bloccare la migrazione di acqua contaminata? Capacità di supportare i processi organici? Capacità di promuovere determinate reazioni chimiche? I terreni buoni per uno di questi scopi possono essere particolarmente poveri per gli altri.
Il problema, come affermato, non ha scopo: perché la "qualità" deve essere classificata? A cosa servirà la classifica - input per ulteriori analisi, selezione del terreno "migliore", decisione su un'ipotesi scientifica, sviluppo di una teoria, promozione di un prodotto?
Le conseguenze della classifica non sono evidenti. Se la classifica è errata o inferiore, cosa accadrà? Il mondo sarà più affamato, l'ambiente più contaminato, gli scienziati più fuorviati, i giardinieri più delusi?
Perché una combinazione lineare di variabili dovrebbe essere appropriata? Perché non dovrebbero essere moltiplicati o esponenziali o combinati come posinomiali o qualcosa di ancora più esoterico?
Le misure di qualità del suolo grezzo vengono comunemente represse. Ad esempio, la permeabilità dei tronchi è di solito più utile della permeabilità stessa e l'attività degli ioni di idrogeno (pH) dei tronchi è molto più utile dell'attività. Quali sono le repressioni appropriate delle variabili per determinare la "qualità"?

Si spera che la scienza dei suoli risponda alla maggior parte di queste domande e indichi quale potrebbe essere la combinazione appropriata delle variabili per qualsiasi senso oggettivo di "qualità". In caso contrario, devi affrontare un problema di valutazione con più attributi . L'articolo di Wikipedia elenca dozzine di metodi per affrontare questo problema. IMHO, molti di loro sono inappropriati per affrontare una domanda scientifica. Uno dei pochi con una solida teoria e potenziale applicabilità a questioni empiriche è la teoria della valutazione degli attributi multipli di Keeney & Raiffa(MAVT). Richiede che tu sia in grado di determinare, per due combinazioni specifiche delle variabili, quale delle due dovrebbe essere classificata più in alto. Una sequenza strutturata di tali confronti rivela (a) modi appropriati per riesprimere i valori; (b) se una combinazione lineare dei valori re-espressi produrrà o meno la classificazione corretta; e (c) se è possibile una combinazione lineare, ti permetterà di calcolare i coefficienti. In breve, MAVT fornisce algoritmi per risolvere il problema purché tu sappia già come confrontare casi specifici.

— whuber
fonte

RE: 1. So per certo che "maggiore è il numero, maggiore è la qualità" per tutte e quattro le variabili RE: 2. Buon punto. Cosa posso fare per rendere comparabili due set di dati

— user333

2

@user Le mie raccomandazioni sono nell'ultimo paragrafo: preferibilmente, trovare un'espressione quantitativa di "qualità" nella letteratura scientifica. Tranne quello, applica MAVT. Entrambi producono una formula fissa indipendente dal set di dati. Ciò assicura la comparabilità.

— whuber

1

@whuber, Non si potrebbe vedere questo come un problema nel fare una misura formativa sulla base delle informazioni disponibili, nel qual caso sommare i punteggi Z non è così male come sembra?

— Andy W,

3

@Andy Potresti spiegare cosa intendi con "misura formativa" e "informazioni disponibili"? // Devo sottolineare che molte misure di idoneità del suolo all'agricoltura non sono neppure monotoniche, molto meno lineari: per esempio, una pianta potrebbe prosperare in un intervallo di pH ma soffrire di pH oltre questo intervallo in entrambe le direzioni . Sarebbe davvero una circostanza speciale - forse una che coinvolge un ristretto intervallo di valori - se una semplice combinazione lineare di caratteristiche del suolo avesse una relazione obiettiva con le qualità agricole.

— whuber

2

(y_{1}, \dots, y_{k})

$(y_1, \ldots, y_k)$

(x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k)$

— whuber

3

Qualcuno ha esaminato la recensione di Russell G. Congalton "Revisione della valutazione dell'accuratezza delle classificazioni dei dati rilevati da remoto" nel 1990? Descrive una tecnica nota come matrice di errori per le matrici varing, anche un termine che usa chiamato "Normalizzazione dei dati", in base al quale si ottengono tutti i diversi vettori e si "normalizzano" o li si imposta su uguale da 0 a 1. Fondamentalmente si cambiano tutti i vettori in intervalli uguali da 0 a 1.

— Ragus Paganini
fonte

0

Un'altra cosa di cui non hai discusso è la scala delle misurazioni. V1 e V5 sembrano essere in ordine di rango e l'altro sembra non esserlo. Quindi la standardizzazione potrebbe distorcere il punteggio. Quindi potresti essere meglio trasformare tutte le variabili in ranghi e determinare una ponderazione per ogni variabile, poiché è altamente improbabile che abbiano lo stesso peso. La parità di ponderazione è più un'impostazione predefinita "no nothing". Potresti voler fare delle analisi di correlazione o regressione per trovare dei pesi a priori.

— Ralph Winters
fonte

Come posso usare l'analisi di correlazione per determinare il peso?

— user333

Se disponi già di una misura complessiva preesistente di qualità, ad esempio opinioni di esperti (o se sei disposto ad accettare altre variabili come proxy per questo), puoi scegliere le variabili più alte correlate e darle la massima ponderazione.

— Ralph Winters,

-3

In seguito alla risposta di Ralph Winters, è possibile utilizzare PCA (analisi dei componenti principali) sulla matrice di punteggi adeguatamente standardizzati. Questo ti darà un vettore di peso "naturale" che puoi usare per combinare i punteggi futuri.

Fallo anche dopo che tutti i punteggi sono stati trasformati in gradi. Se i risultati sono molto simili, hai buoni motivi per continuare con entrambi i metodi. Se ci sono discrepanze, questo porterà a domande interessanti e una migliore comprensione.

— Hans Engler
fonte

4

Non sono d'accordo. Mentre uno sarebbe probabilmente interessato alle correlazioni tra elementi per curiosità, tutte le variabili potrebbero essere ortogonali e contribuire comunque alla qualità. Per un esempio sciocco il suolo in Antartide può avere un contenuto di azoto ottimale, ma dubito che sarebbe sufficiente come clima adatto.

— Andy W

@Andy W: In tal caso, tutte le variabili dovrebbero essere ponderate allo stesso modo e PCA te lo dirà. Indicherebbe anche che il componente principale rappresenta solo una frazione relativamente piccola della variabilità complessiva nella matrice dei punteggi.

— Hans Engler,

3

Non sono ancora d'accordo. Non ti dice se i punteggi devono essere ponderati equamente. Due elementi potrebbero avere una correlazione positiva, ma ognuno ha relazioni opposte con la "qualità". Le correlazioni tra elementi non dicono necessariamente nulla della misura non osservata nel contesto dato. Se la qualità fosse una variabile latente e le variabili fossero "riflettenti" di quel costrutto latente ciò potrebbe essere vero, ma non è il caso in questo dato esempio.

— Andy W,

A

$A$

m \times n

$m \times n$

σ_{1} u v^{T}

$\sigma_1 uv^T$

A

$A$

n

$n$

v_{j}

$v_j$

v_{j}

$v_j$

— Hans Engler,

3

Non sono ancora d'accordo. Anche se si prevede che l'associazione sia nella stessa direzione, ciò non significa che agli indicatori dovrebbe essere intrinsecamente attribuito un peso in base alla loro correlazione tra elementi. La varianza condivisa può solo dire qualcosa sulla relazione tra gli indicatori. Pensa a un modello di regressione in cui prevediamo una misura nota della qualità da questi indicatori. Le correlazioni tra gli elementi tra gli indicatori non indicano quali saranno le pendenze previste.

— Andy W