È possibile valutare GLM in Python / scikit-learn usando le distribuzioni Poisson, Gamma o Tweedie come famiglia per la distribuzione degli errori?


12

Sto cercando di imparare alcuni Python e Sklearn, ma per il mio lavoro ho bisogno di eseguire regressioni che utilizzano distribuzioni di errori dalle famiglie Poisson, Gamma e soprattutto Tweedie.

Non vedo nulla nella documentazione su di loro, ma si trovano in diverse parti della distribuzione R, quindi mi chiedevo se qualcuno avesse visto implementazioni ovunque per Python. Sarebbe davvero bello se mi potessi indirizzare verso implementazioni SGD della distribuzione Tweedie!


Le implementazioni GLM più robuste in Python sono in [statsmodels] statsmodels.sourceforge.net, anche se non sono sicuro che ci siano implementazioni SGD.
Trey,

Grazie Trey. Sembra che non ci sia supporto per Tweedie, ma hanno qualche discussione sulle distribuzioni di Poisson e Gamma.
joe

Risposte:


13

C'è movimento per implementare modelli lineari generalizzati con distribuzioni di errori Poisson, gamma e Tweedie in scikit-learn.

Statsmodels ha implementazioni di modelli lineari generalizzati con distribuzioni di errori Poisson, Tweedie e gamma.

Mentre aggiorno questa risposta, Spark ML supporta (sperimentalmente) anche le distribuzioni Poisson, Tweedie e gamma.



@MatthewDrury Fantastico!
Neal,

@MatthewDrury nice! Ho appena iniziato a utilizzare GLM e statsmodels ha alcune limitazioni. Non sono sicuro di aver compreso appieno la matematica, ma la tua soluzione interiore potrebbe essere sostituita con un solutore arbitrario di tipo minimo quadrati? Pensavo che ciò avrebbe aggiunto flessibilità (ad esempio passare a sklearn.ElasticNet per ottenere scalabilità / regolarizzazione / ecc. "Gratis"?).
GeoMatt22,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.