Quali sono le differenze pratiche e interpretative tra alternative e regressione logistica?


9

Una recente domanda sulle alternative alla regressione logistica in R ha prodotto una varietà di risposte tra cui randomForest, gbm, rpart, bayesglm e modelli di additivi generalizzati. Quali sono le differenze pratiche e interpretative tra questi metodi e la regressione logistica? Quali ipotesi fanno (o non fanno) in relazione alla regressione logistica? Sono adatti per il test di ipotesi? Eccetera.

Risposte:


9

Disclaimer: è certamente lungi dall'essere una risposta completa alla domanda!

Penso che ci siano almeno due livelli da considerare prima di stabilire una distinzione tra tutti questi metodi:

  • indipendentemente dal fatto che un singolo modello sia montato o meno: questo aiuta a contrastare metodi come la regressione logistica rispetto a RF o il Gradient Boosting (o più in generale i metodi Ensemble ) e pone inoltre l'accento sulla stima dei parametri (con intervalli di confidenza asintotici o bootstrap associati) rispetto alla classificazione o calcolo dell'accuratezza della previsione;
  • pn

Ecco alcuni altri punti che ritengo siano rilevanti per la domanda.

Nel caso in cui prendiamo in considerazione diversi modelli - lo stesso modello è montato su diversi sottoinsiemi (individui e / o variabili) dei dati disponibili, o diversi modelli competitivi sono montati sullo stesso set di dati--, è possibile utilizzare la convalida incrociata per evitare sovralimentare ed eseguire la selezione del modello o della funzione, sebbene il CV non si limiti a questi casi particolari (può essere utilizzato con GAM o GLM penalizzati, ad esempio). Inoltre, c'è il tradizionale problema di interpretazione: modelli più complessi spesso implicano un'interpretazione più complessa (più parametri, ipotesi più stringenti, ecc.).

L'aumento del gradiente e le RF superano i limiti di un singolo albero decisionale, grazie a Boosting la cui idea principale è quella di combinare l'output di diversi algoritmi di apprendimento deboli al fine di costruire una regola di decisione più accurata e stabile, e Bagging in cui "media" i risultati sopra set di dati ricampionati. Complessivamente, sono spesso visti come una sorta di scatole nere rispetto a modelli più "classici" in cui vengono fornite chiare specifiche per il modello (posso pensare a tre classi di modelli: parametrico , semi-parametrico , non parametrico ), ma Penso che la discussione si sia svolta sotto quest'altra discussione The Two Cultures: statistica vs. machine learning? fornire punti di vista interessanti.

Ecco un paio di articoli sulla selezione delle caratteristiche e alcune tecniche ML:

  1. Saeys, Y, Inza, I e Larrañaga, P. Una revisione delle tecniche di selezione delle caratteristiche in bioinformatica , Bioinformatica (2007) 23 (19): 2507-2517.
  2. Dougherty, ER, Hua J e Sima, C. Prestazioni dei metodi di selezione delle caratteristiche , Current Genomics (2009) 10 (6): 365–374.
  3. Boulesteix, AL e Strobl, C. Selezione del classificatore ottimale e distorsione negativa nella stima del tasso di errore: uno studio empirico sulla previsione ad alta dimensione , BMC Medical Research Methodology (2009) 9:85.
  4. Caruana, R e Niculescu-Mizil, A. Un confronto empirico di algoritmi di apprendimento supervisionato . Atti della 23a Conferenza internazionale sull'apprendimento automatico (2006).
  5. Friedman, J, Hastie, T e Tibshirani, R. regressione logistica additiva: una visione statistica del potenziamento , Ann. Statist. (2000) 28 (2): 337-407. (Con discussione)
  6. Olden, JD, Lawler, JJ e Poff, NL. Metodi di apprendimento automatico senza lacrime: un primer per ecologi , Q Rev Biol. (2008) 83 (2): 171-93.

E, naturalmente, The Elements of Statistical Learning , di Hastie e coll., È pieno di illustrazioni e riferimenti. Assicurati anche di controllare i tutorial statistici sull'estrazione dei dati , da Andrew Moore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.