Le differenze tra regressione logistica randomizzata e regressione logistica semplice


12

Mi piacerebbe conoscere le differenze tra Regressione logistica randomizzata (RLR) e Regressione logistica semplice (LR), quindi sto leggendo un articolo "Selezione della stabilità" di Meinshausen, et al. ; tuttavia non capisco cosa sia RLR e quali siano le differenze tra RLR e LR.

Qualcuno potrebbe indicare cosa dovrei leggere per capire RLR? O c'è un semplice esempio per cominciare?


1
RLR non è un termine standard. Si prega di definire il metodo
Frank Harrell,

Grazie @FrankHarrell ... Il metodo proviene da una libreria di apprendimento di Scikit .
Hendra Bunyamin,

Ora che c'è un nuovo sito di scambio di stack per l'apprendimento automatico / Big Data, forse questa domanda appartiene laggiù.
Placidia,

4
@Placidia Questo è un buon suggerimento. Tuttavia, la tua risposta personale mostra perché questa domanda appartiene qui: siamo in grado di fornire una prospettiva equilibrata che caratterizza e confronta accuratamente sia gli aspetti statistici che quelli ML della domanda. Sebbene sia possibile che qualcuno sul sito della "scienza dei dati" possa fornire tale risposta, la mia esperienza è che sarebbe improbabile.
whuber

3
Sono sbalordito dal fatto che il nuovo sito sia la scienza dei dati di chiamata, che riguarda più della metà delle statistiche, ed è di questo che tratta questo sito.
Frank Harrell,

Risposte:


17

Potresti voler dare un'occhiata a questo riferimento . Sci-kit learning implementa la regressione logistica randomizzata e il metodo è descritto qui.

Ma per rispondere alla tua domanda, i due metodi differiscono ampiamente nei loro obiettivi. La regressione logistica riguarda l'adattamento di un modello e RLR riguarda l'individuazione delle variabili che vanno nel modello.

La regressione logistica alla vaniglia è un modello lineare generalizzato. Per una risposta binaria, riteniamo che le probabilità del log della probabilità di risposta siano una funzione lineare di un numero di predittori. I coefficienti dei predittori vengono stimati utilizzando la massima probabilità e l'inferenza sui parametri si basa quindi su ampie proprietà del campione del modello. Per i migliori risultati, in genere assumiamo che il modello sia abbastanza semplice e ben compreso. Sappiamo quali variabili indipendenti influiscono sulla risposta. Vogliamo stimare i parametri del modello.

Ovviamente, in pratica, non sappiamo sempre quali variabili dovrebbero essere incluse nel modello. Ciò è particolarmente vero nelle situazioni di apprendimento automatico in cui il numero di potenziali variabili esplicative è enorme e i loro valori sono scarsi.

Nel corso degli anni, molte persone hanno cercato di utilizzare le tecniche di adattamento del modello statistico ai fini della selezione variabile (leggi "feature"). Nel crescente livello di affidabilità:

  1. Adatta un modello grande e elimina le variabili con statistiche Wald non significative. Non produce sempre il modello migliore.
  2. Guarda tutti i modelli possibili e scegli il "migliore". Computazionalmente intenso e non robusto.
  3. Montare il modello grande con un termine di penalità L1 (stile lazo). Le variabili inutili vengono eliminate. Meglio, ma instabile con matrici sparse.
  4. Metodo casuale 3. Prendere sottoinsiemi casuali, adattare un modello penalizzato a ciascuno e fascicolare i risultati. Le variabili che appaiono frequentemente sono selezionate. Quando la risposta è binaria, questa è una regressione logistica randomizzata. Una tecnica simile può essere estratta con dati continui e il modello lineare generale.

2
+1 È un piacere vedere un sondaggio così ben articolato, leggibile e informativo di una metodologia generale.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.