Funzioni di posizionamento nella regressione logistica


10

Ho usato la regressione logistica. Ho sei funzionalità, voglio conoscere le funzionalità importanti di questo classificatore che influenzano il risultato più di altre funzionalità. Ho usato il guadagno delle informazioni, ma sembra che non dipenda dal classificatore usato. Esiste un metodo per classificare le funzionalità in base alla loro importanza in base a un classificatore specifico (come la regressione logistica)? qualsiasi aiuto sarebbe molto apprezzato.


3
La regressione logistica non è un classificatore. Riscrivi la tua domanda per riflettere che la regressione logistica è un modello di stima della probabilità diretta.
Frank Harrell,

1
A parte il punto sollevato da FrankHarrell, hai esaminato i valori dei tuoi coefficienti stimati? Non è sicuramente il modo migliore di classificare le funzionalità, ma può darti un punto di partenza. p
usεr11852,

9
Certo, la regressione logistica sta stimando le probabilità e non classificando esplicitamente le cose, ma a chi importa? Lo scopo è spesso quello di decidere quale classe è più probabile e non c'è niente di sbagliato nel chiamarlo classificatore se è per questo che lo stai usando.
Dsaxton,

Risposte:


5

Penso che la risposta che stai cercando potrebbe essere l' algoritmo di Boruta . Questo è un metodo wrapper che misura direttamente l'importanza delle funzioni in un senso "di tutta rilevanza" ed è implementato in un pacchetto R , che produce grafici interessanti come questa tramadove l'importanza di qualsiasi caratteristica è sull'asse y e viene confrontata con un null tracciato in blu qui. Questo post sul blog descrive l'approccio e ti consiglio di leggerlo come un'introduzione molto chiara.


Bel suggerimento (+1). Penso che sia un po 'eccessivo per questa applicazione, ma comunque una buona aggiunta. Ho sicuramente apprezzare che farà bene in situazioni. Conosci studi di revisione comparativa in cui è stato confrontato con altri algoritmi di classificazione? p>>n
usεr11852,

@ usεr11852 No, non lo so. Me ne sono appena imbattuto da solo nell'ultima settimana circa.
babelproofreader,

Hmmm ... OK, Boruta sembra molto promettente, ma sono sempre scettico nei confronti di grandi nuovi algoritmi fino a quando non li vedo come parti di uno studio più approfondito e vedo i casi in cui non riescono a eccellere ( nessun teorema del pranzo libero ).
usεr11852,

Idea interessante ma non correlata alla regressione logistica.
Frank Harrell,

"Boruta è un metodo di selezione delle caratteristiche, non un metodo di classificazione delle caratteristiche" Vedi le FAQ sulla homepage del pacchetto
steadyfish

3

Per iniziare a capire come classificare le variabili in base all'importanza per i modelli di regressione, puoi iniziare con la regressione lineare. Un approccio popolare per classificare l'importanza di una variabile in un modello di regressione lineare è di scomporre in contributi attribuiti a ciascuna variabile. Ma l'importanza delle variabili non è semplice nella regressione lineare a causa delle correlazioni tra le variabili. Fare riferimento al documento che descrive il metodo PMD (Feldman, 2005) [ 3 ]. Un altro approccio popolare è la media degli ordini (LMG, 1980) [ 2 ].R2

Non c'è molto consenso su come classificare le variabili per la regressione logistica. Una buona panoramica di questo argomento è fornita in [ 1 ], descrive gli adattamenti delle tecniche di importanza relativa della regressione lineare usando Pseudo- per la regressione logistica.R2

Un elenco degli approcci popolari per classificare l'importanza delle caratteristiche nei modelli di regressione logistica sono:

  1. Correlazione pseudo-logistica parziale (usando Pseudo- )R2
  2. Adeguatezza: la proporzione dell'intera verosimiglianza del modello che è spiegabile da ciascun predittore individualmente
  3. Concordanza: indica la capacità di un modello di distinguere tra le variabili di risposta positiva e negativa. Viene creato un modello separato per ciascun predittore e il punteggio di importanza è la probabilità prevista di veri positivi basati solo su quel predittore.
  4. Valore delle informazioni: i valori delle informazioni quantificano la quantità di informazioni sul risultato ottenuto da un predittore. Si basa su un'analisi di ciascun predittore a sua volta, senza tenere conto degli altri predittori.

Riferimenti:

  1. Sulla misurazione dell'importanza relativa delle variabili esplicative in una regressione logistica
  2. Importanza relativa dei regressori lineari in R
  3. Importanza e valore relativi, Barry Feldman (metodo PMD)

0

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)

Supponendo che tutti i tuoi siano normalizzati, ad esempio dividendo per la grandezza di , è abbastanza facile vedere quali variabili sono più importanti: quelle che sono più grandi rispetto alle altre o (sul lato negativo ) più piccoli rispetto agli altri. Influiscono maggiormente sulla perdita.xx

Se sei appassionato di trovare le variabili che sono davvero importanti e nel processo non ti dispiace via alcune, puoi regolarizzare la tua funzione di perdita: min w , b n i = 1 log ( 1 + exp ( - y i f w , b ( x i ) ) ) + λ | w |1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

I derivati ​​o il regolarizzatore sono piuttosto semplici, quindi non li menzionerò qui. L'uso di questa forma di regolarizzazione e un appropriato che gli elementi meno importanti in diventino zero e gli altri no.wλw

Spero che questo possa essere d'aiuto. Chiedi se hai ulteriori domande.


4
LR non è uno schema di classificazione. Qualsiasi uso della classificazione si presenta come una fase di post-stima dopo aver definito la funzione di utilità / costo. Inoltre, il PO non ha chiesto informazioni sulla stima della probabilità massima penalizzata. Per fornire prove dell'importanza relativa delle variabili nella regressione, è molto semplice utilizzare il bootstrap per ottenere limiti di confidenza per i ranghi delle informazioni predittive aggiunte fornite da ciascun predittore. Un esempio appare nel capitolo 4 delle strategie di modellazione della regressione, le cui note online e il codice R sono disponibili su biostat.mc.vanderbilt.edu/RmS#Materials
Frank Harrell,

4
Prof. Harrell, per favore. È ovvio che ci stiamo avvicinando da due lati diversi. Tu da quello statistico e io vengo dall'apprendimento automatico. Rispetto te, la tua ricerca e la tua carriera, ma sei molto libero di formulare la tua risposta e lasciare che l'OP decida, quale considera la migliore risposta alla sua domanda. Sono appassionato di apprendimento, quindi per favore insegnami il tuo approccio ma non farmi comprare il tuo libro.
p84,

1
Noterò solo che la regressione logistica è stata sviluppata dallo statistico DR Cox nel 1958, decenni prima che esistesse l'apprendimento automatico. È anche importante notare che la "funzione di perdita" (meglio definita forse una funzione oggettiva?) Che hai formulato non ha alcuna relazione con la classificazione. E cosa implica per te che le mie ampie note e file audio disponibili online con tutte le informazioni a cui mi riferivo costino qualcosa?
Frank Harrell,

2
Ho valutato entrambi i commenti iniziali, poiché entrambi sollevano punti validi. Più tardi commenta un po 'come un piccolo litigio per me ...
usεr11852

4
PS Cercare un modo più chiaro per dirlo, ottimizzare la previsione / stima porta a decisioni ottimali perché la funzione di utilità viene applicata in una seconda fase e non può essere correlata ai predittori. L'ottimizzazione della previsione / stima non ottimizza la classificazione e viceversa. L'ottimizzazione della classificazione equivale all'utilizzo di una strana funzione di utilità personalizzata per il set di dati in uso e che potrebbe non essere applicabile a nuovi set di dati. Le persone che vogliono davvero ottimizzare la classificazione (non raccomandato) possono utilizzare un metodo che ignora del tutto la stima / previsione.
Frank Harrell,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.