Metodi penalizzati per i dati categorici: combinare i livelli in un fattore


10

I modelli penalizzati possono essere utilizzati per stimare modelli in cui il numero di parametri è uguale o addirittura maggiore della dimensione del campione. Questa situazione può verificarsi in modelli log-lineari di grandi tabelle sparse di dati categorici o di conteggio. In queste impostazioni, è spesso anche desiderabile o utile comprimere le tabelle combinando i livelli di un fattore in cui tali livelli non sono distinguibili in termini di come interagiscono con altri fattori. Due domande:

  1. Esiste un modo per utilizzare modelli penalizzati come LASSO o rete elastica per verificare la collassabilità dei livelli all'interno di ciascun fattore?
  2. Se la risposta alla prima domanda è sì, può e dovrebbe essere impostato in modo tale che il crollo dei livelli e la stima dei coefficienti del modello avvengano in un unico passaggio?

1
Questo documento, doi.org/10.1177/1471082X16642560 , offre una bella panoramica di ciò che è stato fatto in questo settore negli ultimi dieci anni circa.
Jorne Biccler,

1
Nota: la penalità di cui parlo di seguito è l'equazione 3.4 nel link di @JorneBiccler. (È interessante vedere che questa domanda è stata considerata prima!)
user795305,


Come possiamo chiamarlo un duplicato di una domanda che lo ha preceduto?
Michael R. Chernick,

Risposte:


4

È possibile. Per fare ciò possiamo usare una variante del lazo fuso .

β^=argminβ1ni=1n(yiβTxieβTxi)+factors gλg(jg|βj|+12j,kg|βjβk|).

Nota che è la funzione di perdita per log-linear Modelli.1ni=1n(yiβTxieβTxi)

Questo incoraggia i coefficienti all'interno di un gruppo ad essere uguali. Questa uguaglianza di coefficienti equivale al collasso dei livelli e del fattore insieme. Nel caso in cui , equivale a comprimere il livello con il livello di riferimento. I parametri di ottimizzazione possono essere trattati come costanti, ma questo se ci sono solo alcuni fattori, potrebbe essere meglio trattarli come separati. k t h β j = 0 j t h λ gjthkthβ^j=0jthλg

Lo stimatore è un minimizzatore di una funzione convessa, quindi può essere calcolato in modo efficiente tramite risolutori arbitrari. È possibile che se un fattore ha molti, molti livelli, queste differenze a coppie sfuggiranno di mano --- in questo caso, sarà necessaria una maggiore conoscenza dei possibili schemi di collasso.

Nota che tutto ciò è realizzato in un solo passaggio! Questo fa parte di ciò che rende così interessanti gli stimatori di tipo lazo!


Un altro approccio interessante è utilizzare lo stimatore OSCAR, che è come sopra tranne la penalità è sostituito da .[11][βiβj]1[βiβj]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.