Differenza tra dati mancanti e dati sparsi negli algoritmi di machine learning


20

Quali sono le principali differenze tra dati sparsi e dati mancanti? E come influenza l'apprendimento automatico? Più specificamente, quale effetto hanno i dati sparsi e quelli mancanti sugli algoritmi di classificazione e sul tipo di algoritmo di regressione (numeri predittivi). Sto parlando di una situazione in cui la percentuale di dati mancanti è significativa e non possiamo eliminare le righe contenenti dati mancanti.


4
Dati sparsi indicano che molti dei valori sono zero, ma si sa che sono zero. La mancanza di dati significa che non si conoscono alcuni o molti dei valori.
Anna SdTC

Grazie. Questo è quello che ho pensato anche, ma volevo confermare. Inoltre, come accennato in questione, vorrei sapere come, in generale, questi tipi di set di dati vengono gestiti in problemi di apprendimento automatico ..
dev stanco e annoiato

1
Penso che la tua domanda sia un po 'vaga. L '"apprendimento automatico" include una vasta gamma di metodi e strumenti, quindi la risposta dipende da cosa hai o da cosa vuoi fare. Qui discutono alcuni metodi per gestire i dati mancanti: stats.stackexchange.com/questions/103500/…
Anna SdTC

Grazie. Sono a conoscenza di un'ampia gamma di strumenti e tipi di algoritmi ml. Ma volevo sapere se ci sono approcci generali.
dev stanco e annoiato il

Risposte:


16

Per facilità di comprensione, lo descriverò usando un esempio. Diciamo che stai raccogliendo dati da un dispositivo che ha 12 sensori. E hai raccolto dati per 10 giorni.

I dati che hai raccolto sono i seguenti: inserisci qui la descrizione dell'immagine

Questo si chiama dati sparsi perché la maggior parte delle uscite del sensore sono zero. Ciò significa che quei sensori funzionano correttamente ma la lettura effettiva è zero. Sebbene questa matrice abbia dati dimensionali elevati (12 assi), si può dire che contiene meno informazioni.

Supponiamo che 2 sensori del tuo dispositivo non funzionino correttamente.
Quindi i tuoi dati saranno come:inserisci qui la descrizione dell'immagine

In questo caso, è possibile notare che non è possibile utilizzare i dati di Sensor1 e Sensor6. O devi riempire i dati manualmente senza influire sui risultati o devi ripetere l'esperimento.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.