Per la modellazione predittiva, dobbiamo occuparci di concetti statistici come effetti casuali e non indipendenza delle osservazioni (misure ripetute)? Per esempio....
Ho i dati di 5 campagne di direct mail (avvenute nel corso di un anno) con vari attributi e una bandiera per l'acquisto. Idealmente, utilizzerei tutti questi dati combinati per creare un modello per l'acquisto di determinati attributi del cliente al momento della campagna. Il motivo è che l'evento di acquisto è raro e vorrei utilizzare quante più informazioni possibili. È possibile che un determinato cliente possa essere presente ovunque tra 1 e 5 delle campagne, il che significa che non esiste indipendenza tra i record.
Importa quando si utilizza:
1) Un approccio di apprendimento automatico (ad esempio albero, MLP, SVM)
2) Un approccio statistico (regressione logistica)?
**ADD:**
Il mio pensiero sulla modellazione predittiva è se il modello funziona, usalo. In modo che non ho mai veramente considerato l'importanza delle ipotesi. Pensare al caso che descrivo sopra mi ha fatto riflettere.
Prendi algoritmi di machine learning come a MLP and SVM. Questi sono usati con successo per modellare un evento binario come il mio esempio sopra ma anche dati di serie temporali che sono chiaramente correlati. Tuttavia, molti usano funzioni di perdita che sono verosimili e derivate supponendo che gli errori siano evitati. Ad esempio, gli alberi potenziati con gradiente in R gbmutilizzano funzioni di perdita di devianza derivate dal binomio ( Pagina 10 ).