Ho quattro variabili numeriche. Tutti loro sono misure della qualità del suolo. Maggiore è la variabile, maggiore è la qualità. La gamma per tutti loro è diversa:
Var1 da 1 a 10
Var2 da 1000 a 2000
Var3 da 150 a 300
Var4 da 0 a 5
Devo combinare quattro variabili in un singolo punteggio di qualità del suolo che classificherà con successo l'ordine.
La mia idea è molto semplice Standardizza tutte e quattro le variabili, riassumendole e qualunque cosa tu ottenga è il punteggio che dovrebbe classificare. Vedi qualche problema con l'applicazione di questo approccio. C'è qualche altro approccio (migliore) che consiglieresti?
Grazie
Modificare:
Grazie ragazzi. Molta discussione è stata dedicata all '"esperienza di dominio" ... Cose sull'agricoltura ... Mentre mi aspettavo più statistiche. In termini di tecnica che userò ... Sarà probabilmente una semplice somma di z-score + regressione logistica come esperimento. Poiché la stragrande maggioranza dei campioni ha una qualità scadente del 90%, combinerò 3 categorie di qualità in una e fondamentalmente ho un problema binario (unicità o una non qualità). Uccido due uccelli con una fava. Aumento il mio campione in termini di frequenza degli eventi e utilizzo gli esperti facendoli classificare i miei campioni. Verranno quindi utilizzati campioni classificati dagli esperti per adattare il modello log-reg per massimizzare il livello di concordanza / discordanza con gli esperti .... Come ti sembra?