Metodi per unire / ridurre le categorie in dati ordinali o nominali?


14

Sto lottando per trovare un metodo per ridurre il numero di categorie nei dati nominali o ordinali.

Ad esempio, diciamo che voglio costruire un modello di regressione su un set di dati che ha una serie di fattori nominali e ordinali. Anche se non ho problemi con questo passaggio, mi imbatto spesso in situazioni in cui una caratteristica nominale è senza osservazioni nel set di addestramento, ma successivamente esiste nel set di dati di convalida. Ciò porta naturalmente a un errore quando il modello presenta casi (finora) invisibili. Un'altra situazione in cui vorrei combinare le categorie è semplicemente quando ci sono troppe categorie con poche osservazioni.

Quindi le mie domande sono:

  • Mentre mi rendo conto che potrebbe essere meglio combinare molte categorie nominali (e ordinali) in base alle precedenti informazioni di base sul mondo reale che rappresentano, esistono metodi sistematici ( Rpreferibilmente pacchetti) disponibili?
  • Quali linee guida e suggerimenti faresti riguardo alle soglie di soglia e così via?
  • Quali sono le soluzioni più popolari in letteratura?
  • Esistono altre strategie oltre alla combinazione di piccole categorie nominali in una nuova categoria "ALTRI"?

Sentiti libero di intervenire se hai anche altri suggerimenti.


Risposte:


11

Questa è una risposta alla tua seconda domanda.

Sospetto che l' approccio corretto a questo tipo di decisioni sarà determinato in gran parte dalle norme disciplinari e dalle aspettative del pubblico previsto per il tuo lavoro. Come scienziato sociale, lavoro spesso con dati di sondaggi (o simili a sondaggi) e cerco sempre di bilanciare logiche sostanziali e basate sui dati quando collasso scale ordinali o variabili categoriche. In altre parole, farò del mio meglio per considerare quali combinazioni di elementi "si uniscono" in termini di sostanza e distribuzione delle risposte prima di comprimere gli elementi.

Ecco un esempio recente di una domanda di indagine specifica (ordinale) che riguardava una scala di frequenza a cinque punti:

Con quale frequenza partecipi alle riunioni di un club o di un'organizzazione nella tua comunità?

  • Mai
  • Alcune volte all'anno
  • Una volta al mese
  • Alcune volte al mese
  • Una volta alla settimana o più

Al momento non ho i dati disponibili per me, ma i risultati sono stati fortemente distorti verso la fine "mai" della scala. Di conseguenza, il mio coautore e io abbiamo scelto di raggruppare le risposte in due gruppi: "Una volta al mese o più" e "Meno di una volta al mese". La variabile (binaria) risultante è stata distribuita in modo più uniforme e riflette una distinzione significativa in termini pratici: poiché molti club e organizzazioni non si incontrano più di una volta al mese, ci sono buoni motivi per credere che le persone che partecipano alle riunioni almeno che spesso lo sono membri "attivi" di tali gruppi mentre quelli che frequentano meno frequentemente (o mai) sono "inattivi".

Quindi, nella mia esperienza, queste decisioni sono almeno tanto l'arte quanto la scienza. Detto questo, di solito cerco anche di farlo prima di adattare qualsiasi modello, dal momento che lavoro in una disciplina in cui qualsiasi altra cosa è vista (negativamente) come data mining e altamente non scientifica (tempi divertenti!).

Con questo in mente, potrebbe essere utile se potessi dire qualcosa in più sul tipo di pubblico che hai in mente per questo lavoro. Sarebbe anche nel tuo interesse rivedere alcuni importanti libri di testo metodologici nel tuo campo in quanto possono spesso chiarire cosa passa per un comportamento "normale" in una determinata comunità di ricerca.


5

Il tipo di approccio discusso da Ashaw può portare a una metodologia relativamente più sistematica. Ma penso anche che per sistematico intendi algoritmico. Qui gli strumenti di data mining possono colmare una lacuna. Per uno, c'è la procedura di rilevamento dell'interazione automatizzata chi-quadro (CHAID) integrata nel modulo Albero decisionale di SPSS; può, secondo le regole stabilite dall'utente, comprimere le categorie ordinali o nominali di variabili predittive quando mostrano valori simili sulla variabile di risultato (sia essa continua o nominale). Queste regole potrebbero dipendere dalla dimensione dei gruppi che vengono compressi o creati collassando o dalla pagina-valori dei relativi test statistici. Credo che alcuni programmi di classificazione e regressione (CART) possano fare le stesse cose. Gli altri intervistati dovrebbero essere in grado di parlare di funzioni simili svolte dalla rete neurale o altre applicazioni fornite attraverso vari pacchetti di data mining.


Ottimo punto, @rolando - dal momento che il post originale fa riferimento a set di dati di addestramento e convalida, sospetto che la tua risposta possa essere effettivamente più utilizzabile per @Figaro.
domandò l'

Grazie ad entrambi per il prezioso contributo. @ rolando2 hai ragione sulla mia formulazione ambigua, algoritmica era la direzione verso cui miravo.
Figaro
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.