Modellazione predittiva - Dovremmo preoccuparci della modellazione mista?


19

Per la modellazione predittiva, dobbiamo occuparci di concetti statistici come effetti casuali e non indipendenza delle osservazioni (misure ripetute)? Per esempio....

Ho i dati di 5 campagne di direct mail (avvenute nel corso di un anno) con vari attributi e una bandiera per l'acquisto. Idealmente, utilizzerei tutti questi dati combinati per creare un modello per l'acquisto di determinati attributi del cliente al momento della campagna. Il motivo è che l'evento di acquisto è raro e vorrei utilizzare quante più informazioni possibili. È possibile che un determinato cliente possa essere presente ovunque tra 1 e 5 delle campagne, il che significa che non esiste indipendenza tra i record.

Importa quando si utilizza:

1) Un approccio di apprendimento automatico (ad esempio albero, MLP, SVM)

2) Un approccio statistico (regressione logistica)?

**ADD:**

Il mio pensiero sulla modellazione predittiva è se il modello funziona, usalo. In modo che non ho mai veramente considerato l'importanza delle ipotesi. Pensare al caso che descrivo sopra mi ha fatto riflettere.

Prendi algoritmi di machine learning come a MLP and SVM. Questi sono usati con successo per modellare un evento binario come il mio esempio sopra ma anche dati di serie temporali che sono chiaramente correlati. Tuttavia, molti usano funzioni di perdita che sono verosimili e derivate supponendo che gli errori siano evitati. Ad esempio, gli alberi potenziati con gradiente in R gbmutilizzano funzioni di perdita di devianza derivate dal binomio ( Pagina 10 ).


1
Sarà importante per gli approcci statistici che assumono l'indipendenza tra i registri, perché in questo caso si hanno a che fare con misure ripetute.
Michelle,

4
Mi sembra che una delle principali differenze tra l'apprendimento automatico incentrato sulla previsione e le statistiche sull'inferenza sia esattamente ciò che dici, B_Miner. L'apprendimento automatico è più interessato a ciò che funziona mentre le statistiche tradizionali prestano particolare attenzione alle ipotesi. In entrambi i casi è necessario essere consapevoli delle ipotesi / proprietà dei propri approcci, quindi prendere una decisione informata se contano o meno. Potresti ingannare te stesso nella modellazione predittiva sul fatto che il tuo modello funzioni se non capisci i presupposti / le proprietà dell'approccio.
Anne Z.

2
@ AnneZ.Se segui l'approccio di validazione raccomandato di training-, test- e validationset (tutti i campioni abbastanza grandi) nella modellazione predittiva e trovi qualcosa che funziona, devi ancora preoccuparti se i presupposti di base sono soddisfatti? Sicuramente non consiglio l'applicazione insensata di ML, mi stavo solo chiedendo ...
Steffen,

2
In questo contesto, il documento "Statistical Modeling: The Two Cultures" potrebbe essere interessante, discusso nel terzo journal journal
crossvalidated

Risposte:


14

Me lo sono chiesto da solo , e qui ci sono le mie conclusioni provvisorie. Sarei felice se qualcuno potesse integrare / correggere questo con le proprie conoscenze e eventuali riferimenti su questo argomento.

Se vuoi testare le ipotesi sui coefficienti di regressione logistica controllando la significatività statistica, devi modellare la correlazione tra le osservazioni (o altrimenti correggere per non indipendenza) perché altrimenti i tuoi errori standard saranno troppo piccoli, almeno quando stai considerando all'interno- effetti a grappolo. Ma i coefficienti di regressione sono imparziali anche con osservazioni correlate, quindi dovrebbe andare bene usare un tale modello per la previsione.

Nella modellazione predittiva, non è necessario rendere esplicitamente conto della correlazione durante l'addestramento del modello, sia che si utilizzi la regressione logistica o un altro approccio. Tuttavia, se si desidera utilizzare un set di controllo per la convalida o il calcolo dell'errore fuori campione, è necessario assicurarsi che le osservazioni per ciascun individuo vengano visualizzate solo in un set, sia in formazione che in convalida, ma non in entrambi. In caso contrario, il modello prevede per gli individui di cui dispone già di alcune informazioni e non si ottiene una lettura vera sull'abilità di classificazione fuori campione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.