Non ho mai trovato buoni testi o esempi su come gestire i dati "inesistenti" per gli input in qualsiasi tipo di classificatore. Ho letto molto sui dati mancanti, ma cosa si può fare per i dati che non possono o non esistono in relazione agli input multivariati. Capisco che questa è una domanda molto complessa e varierà a seconda dei metodi di allenamento utilizzati ...
Ad esempio, se si tenta di prevedere il tempo sul giro per diversi corridori con dati accurati. Tra i molti input, le possibili variabili tra i tanti sono:
- Variabile di input - Primo runner (S / N)
- Variabile di input - Tempo trascorso precedente (0 - 500 secondi)
- Variabile di input - Età
- Variabile di input - Altezza. . . molte più variabili di input ecc
& Predittore di output - Tempo di giro previsto (0 - 500 secondi)
Una 'variabile mancante' per '2.Precedente laptime' potrebbe essere calcolata in diversi modi ma '1. Il primo runner 'sarebbe sempre uguale a N. Ma per "DATI NON ESISTENTI" per il primo runner (dove "1. First time runner" = Y) quale valore / trattamento dovrei dare per "2. Tempo sul giro precedente '?
Ad esempio assegnando '2. Il tempo precedente '-99 o 0 può distorcere drasticamente la distribuzione e far sembrare che un nuovo corridore si sia comportato bene.
I miei attuali metodi di allenamento sono stati utilizzando alberi di regressione logistica, SVM, NN e decisione