Ovviamente sì.
L'analisi dei dati potrebbe portarti a molti punti che danneggerebbero il tuo modello predittivo:
Dati incompleti
Supponendo che stiamo parlando di dati quantitativi, dovrai decidere se vuoi ignorare la colonna (se mancano troppi dati) o capire quale sarà il tuo valore "predefinito" (media, modalità, ecc.). Non puoi farlo senza prima esplorare i tuoi dati.
Dati anormali
Supponi di avere dati abbastanza fortemente correlati, ma esiste un 2% dei tuoi dati che è molto lontano da questa correlazione. Potresti voler rimuovere del tutto questi dati per aiutare il tuo modello predittivo
Rimuovi le colonne con troppa correlazione
Ok, questo contraddice un po 'il mio punto precedente, ma l'inglese non è la mia lingua principale, quindi spero che capirai.
Prenderò un esempio stupido, dirò che analizzi un set di dati dello stadio di calcio e che hai Width, Length, Area
come parametri. Bene, possiamo facilmente immaginare che questi tre parametri saranno fortemente correlati. Avere troppa correlazione tra la tua colonna porta il modello predittivo in una direzione sbagliata. È possibile decidere di cancellare uno o più parametri.
Trova nuove funzionalità
Prenderò l'esempio del piccolo Titanic Kaggle "Competition" . Quando guardi i nomi delle persone, potresti capire che puoi estrarre una caratteristica che è quella Title
della persona. Questa funzionalità risulta essere molto importante quando si tratta di modellazione, ma ti saresti perso se non avessi prima analizzato i tuoi dati.
Potresti decidere di archiviare i tuoi dati continui perché ti sembra più appropriato o trasformare una funzione continua in categoriale.
Trova che tipo di algoritmo usare
Non posso tracciare trame in questo momento, ma facciamo un semplice esempio.
Immagina di avere un modello piccolo con una colonna caratteristica e una colonna "risultato" binaria (solo 0 o 1). Si desidera creare un modello di classificazione predittivo per questo set di dati.
Se, ancora una volta come esempio, dovessi tracciarlo (quindi, analizzare i tuoi dati), potresti realizzare che il diagramma forma un cerchio perfetto attorno al tuo 1 valore. In uno scenario del genere, sarebbe abbastanza ovvio che potresti usare un classificatore polinomiale per avere un modello eccezionale invece di saltare direttamente al DNN. (Ovviamente, considerando che ci sono solo due colonne nel mio esempio, non costituisce un esempio eccellente, ma ottieni il punto)
Nel complesso, non ci si può aspettare che un modello predittivo funzioni bene se non si guardano prima i dati.
[descriptive-statistics]
tag e la tua domanda finale è se le statistiche descrittive sono importanti. In questo contesto intendi solo calcolare varie statistiche descrittive quando menzioni EDA o stai chiedendo informazioni sia su statistiche descrittive sia su EDA? Lo chiedo perché molte persone (incluso me) pensano all'EDA più che a semplici statistiche descrittive.