So che i modelli statistici tradizionali come la regressione dei rischi proporzionali di Cox e alcuni modelli di Kaplan-Meier possono essere utilizzati per prevedere giorni prima che si verifichi il verificarsi di un evento, ad esempio un fallimento, ecc. Analisi di sopravvivenza
Domande
- Come può essere utilizzata la versione di regressione di modelli di machine learning come GBM, reti neurali ecc. Per prevedere giorni fino al verificarsi di un evento?
- Credo che usare i giorni fino al verificarsi come variabile target e semplicemente l'esecuzione di un modello di regressione non funzionerà? Perché non funziona e come può essere riparato?
- Possiamo convertire il problema dell'analisi di sopravvivenza in una classificazione e quindi ottenere le probabilità di sopravvivenza? Se quindi come creare la variabile di destinazione binaria?
- Quali sono i vantaggi e gli svantaggi dell'approccio all'apprendimento automatico rispetto alla regressione dei rischi proporzionali di Cox e ai modelli di Kaplan-Meier, ecc.?
Immagina che i dati di input di esempio siano nel formato seguente
Nota:
- Il sensore esegue il ping dei dati a intervalli di 10 minuti, ma a volte i dati possono mancare a causa di problemi di rete ecc., Come rappresentato dalla riga con NA.
- var1, var2, var3 sono i predittori, variabili esplicative.
- failure_flag indica se la macchina non è riuscita o meno.
- Abbiamo dati degli ultimi 6 mesi a intervalli di 10 minuti per ciascuno degli ID macchina
MODIFICARE:
La previsione dell'output previsto dovrebbe essere nel formato seguente
Nota: voglio prevedere la probabilità di guasto per ciascuna delle macchine per i prossimi 30 giorni a livello giornaliero.
failure_flag
.