Sono colpito da un problema apparentemente facile, ma non trovo una soluzione adatta da diverse settimane.
Ho un sacco di dati di sondaggi / sondaggi (decine di migliaia di intervistati, diciamo 50k per set di dati), provenienti da qualcosa che spero sia chiamato sondaggio progettato in modo complesso con pesi, stratificazione, percorso specifico e così via. Per ogni intervistato, ci sono centinaia di variabili come dati demografici (età, regione ...) e quindi principalmente variabili binarie (al massimo, categoriche).
Vengo di più dal background di informatica / machine learning e ho dovuto imparare molto sulle statistiche e sulla metodologia del sondaggio classico . Ora voglio applicare l'apprendimento automatico classico a questi dati (ad esempio prevedere alcuni valori mancanti per un sottoinsieme di intervistati - in pratica attività di classificazione). Ma, tieni e guarda, non riesco a trovare un modo adatto per farlo. Come dovrei incorporare quegli strati, pesi o percorsi (come: se la domanda 1 ha risposto con l'opzione 2, fai la domanda 3, altrimenti salta)?
Applicare semplicemente i miei modelli (alberi, regressione logistica, SVM, XGBoost ...) sembra pericoloso (e, nella maggior parte dei casi, falliscono), dal momento che di solito assumono che i dati provengano da semplici campioni casuali o iid.
Molti metodi hanno almeno dei pesi, ma non aiutano molto. Inoltre, non è chiaro come dovrei combinare classi squilibrate e pesi dati dalla definizione dell'indagine insieme, non parlando di quelle cose di stratificazione. Inoltre, i modelli di risultati dovrebbero essere ben calibrati: la distribuzione prevista dovrebbe essere molto vicina a quella originale. Le buone prestazioni di previsione non sono gli unici criteri qui. Ho modificato la metrica di ottimizzazione per tener conto anche di questo (come la distanza della distribuzione prevista dalla distribuzione reale + accuratezza / MCC) e in alcuni casi ha aiutato, perché paralizzare le prestazioni in altri.
C'è un modo canonico come affrontare questo problema? Per me sembra un'area di ricerca fortemente sottovalutata. IMO molti sondaggi potrebbero trarre vantaggio dal potere di ML, ma non ci sono fonti. Come questi sono due mondi che non interagiscono tra loro.
Quello che ho trovato finora:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
Ad esempio, conosco ancora solo un articolo (Toth & Eltinge, 2011) su come eseguire alberi di regressione quando i tuoi dati provengono da un complesso sondaggio di esempio.
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
In una recente meta-analisi di 150 articoli di ricerca campionati che analizzano diversi sondaggi con progetti di campionamento complessi, si è riscontrato che erano frequenti errori analitici causati dall'ignoranza o dall'uso errato delle complesse caratteristiche del design del campione.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Domande CV correlate, ma nessuna di esse contiene alcuna risposta utilizzabile su come affrontarla (o nessuna risposta, non ciò che chiedo o presentare raccomandazioni fuorvianti):
- Analisi abbinata con dati di sondaggi complessi
- Apprendimento automatico con dati di rilevamento ponderati / complessi
- Convalida incrociata dopo LASSO in dati di sondaggi complessi
- Separazione nella regressione logistica in un rilevamento complesso?
- Adattamento di modelli multilivello a dati di rilevamento complessi in R