Come gestire i dati inesistenti (non mancanti)?


11

Non ho mai trovato buoni testi o esempi su come gestire i dati "inesistenti" per gli input in qualsiasi tipo di classificatore. Ho letto molto sui dati mancanti, ma cosa si può fare per i dati che non possono o non esistono in relazione agli input multivariati. Capisco che questa è una domanda molto complessa e varierà a seconda dei metodi di allenamento utilizzati ...

Ad esempio, se si tenta di prevedere il tempo sul giro per diversi corridori con dati accurati. Tra i molti input, le possibili variabili tra i tanti sono:

  1. Variabile di input - Primo runner (S / N)
  2. Variabile di input - Tempo trascorso precedente (0 - 500 secondi)
  3. Variabile di input - Età
  4. Variabile di input - Altezza. . . molte più variabili di input ecc

& Predittore di output - Tempo di giro previsto (0 - 500 secondi)

Una 'variabile mancante' per '2.Precedente laptime' potrebbe essere calcolata in diversi modi ma '1. Il primo runner 'sarebbe sempre uguale a N. Ma per "DATI NON ESISTENTI" per il primo runner (dove "1. First time runner" = Y) quale valore / trattamento dovrei dare per "2. Tempo sul giro precedente '?

Ad esempio assegnando '2. Il tempo precedente '-99 o 0 può distorcere drasticamente la distribuzione e far sembrare che un nuovo corridore si sia comportato bene.

I miei attuali metodi di allenamento sono stati utilizzando alberi di regressione logistica, SVM, NN e decisione


Devo aggiungere che ho scartato i nuovi corridori dai dati di allenamento e di previsione a causa dell'incertezza intrinseca ma apprezzerei metodi migliori di "Ignora"
osknows

Risposte:


6

Invece di assegnare un valore speciale per il tempo sul giro precedente inesistente del primo giro, utilizzare semplicemente il termine di interazione per il tempo sul giro precedente con l'inverso del manichino del primo tempo:

Yio=β0+β1FTRio+β2(NFTRio)×PLTio+...

Qui

  • Yio
  • ...
  • FTRio
  • PLTio
  • NFTRioFTRio=0

Quindi il modello per i corridori per la prima volta sarà:

Yio=(β0+β1)+...

e per i corridori non principianti:

Yio=β0+β2PLTio+...

8

Per una regressione logistica adattata con la massima probabilità, purché nel modello siano presenti sia (1) che (2), indipendentemente dal valore "predefinito" assegnato ai nuovi corridori per (2), la stima per (1) si adatterà di conseguenza.

X1X2

η=α+β1X1+β2X2+...

X2

η=α+β1+...

mentre per un corridore esistente sarà:

η=α+β2X2+...

X2

η=α+β1'-99β2+...

β1'-99β2=β1

Naturalmente, se non si utilizza la massima probabilità (ovvero si sta utilizzando una sorta di penalizzazione o prima dei parametri), si otterranno valori diversi a meno che non si adegui di conseguenza la penalità / precedente. E se il modello non è lineare (ad es. Alberi SVM, NN e Decision), questo argomento non funziona affatto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.