Come combinare i risultati di regressione logistica e foresta casuale?


12

Sono nuovo di machine learning. Ho applicato la regressione logistica e la foresta casuale su uno stesso set di dati. Quindi ottengo un'importanza variabile (coefficiente assoluto per la regressione logistica e importanza variabile per la foresta casuale). Sto pensando di combinare i due per ottenere un'importanza variabile finale. Qualcuno può condividere la sua esperienza? Ho controllato l'insacco, il potenziamento, la modellazione di ensemble, ma non sono ciò di cui ho bisogno. Si tratta più di combinare informazioni per lo stesso modello tra replicati. Quello che sto cercando è combinare il risultato di più modelli.


5
La modellazione di ensemble può anche combinare modelli. Guarda ad esempio il voto a maggioranza. Vedi anche, accatastamento.
pat

4
In realtà, l'uso della dimensione dei coefficienti non è un buon modo per determinare "l'importanza variabile" nella regressione logistica. Anche se si osservano coefficienti standardizzati, questo non è un buon metodo. Perché? Ricorda che i coefficienti sono solo stime e c'è un errore ad essi associato. Scegliere i coefficienti per dimensione significa che scegli quelli per i quali hai sovrastimato la dimensione del coefficiente e rilasci quelli per i quali hai sottovalutato la dimensione del coefficiente.
user765195

Risposte:


12

Probabilmente dipende da cosa vuoi usare per le importazioni variabili. Deve essere usato come criterio per la selezione delle funzioni per un terzo modello di classificazione? In tal caso, potresti provare a calcolare una media ponderata delle importazioni variabili (magari dopo aver normalizzato ogni singolo vettore di importanza variabile alla lunghezza unitaria) per vari valori e il peso medio, quindi raccogliere il valore che produce il miglior punteggio con convalida incrociata per la finale modello.

Per quanto riguarda la combinazione dei risultati del modello di regressione logistica e del modello di foresta casuale (senza considerare le importazioni variabili), il seguente post sul blog è molto istruttivo e dimostra che una singola media dell'output è un metodo di insieme semplice ma molto efficace per i modelli di regressione.


1
Grazie per la risposta. Il blog che hai citato è uno studio davvero interessante. Penso di aver avuto l'idea. L'unica preoccupazione è la sua formula di entropia incrociata. Sembra diverso da quello che ho trovato online. Il suo utilizzo: cross.entropy <- funzione (obiettivo, previsto) {predetto = pmax (1e-10, pmin (1-1e-10, previsto)) - somma (obiettivo * log (previsto) + (1 - obiettivo) * log (1 - previsto))}
user1946504

2
e quando ho applicato la stessa idea al mio set di dati, ho usato l'errore di classificazione errata come criterio, la trama non è nulla di simile. La foresta casuale risulta molto meglio della regressione logistica. l'errore di classificazione errata di RF è 0,2, per LR è 0,4. Allo stesso tempo, l'AUC per RF è 0,8, per LR è 0,73.
user1946504

5

(Commentando la risposta e il feedback sopra)

Grazie per aver letto il blog!

La funzione di errore di entropia incrociata ha un piccolo trucco, troncando i valori previsti a [1e-10, 1-1e-10] come un modo economico e semplice per prevenire errori nelle funzioni di registro. Altrimenti, questa è la formula standard.

Per il set di dati, è possibile avere set di dati in cui una foresta casuale è di gran lunga superiore a un registro. reg. e il registro. reg. non aggiunge nulla all'ensemble. Accertati, ovviamente, di utilizzare i dati di controllo: una foresta casuale avrà quasi sempre risultati superiori sui dati di allenamento a causa di parametri molto più efficaci.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.