Penso che frequentemente, la tendenza a sentirti come se fossi caduto in una tana di coniglio con analisi esplorative è dovuta alla perdita di vista delle domande sostanziali che stai ponendo. Lo faccio da solo, ogni tanto, e poi devo ricordare a me stesso quali sono i miei obiettivi. Ad esempio, sto cercando di costruire un modello specifico o valutare l'adeguatezza di uno esistente? Sto cercando prove di problemi con i dati (es. Analisi dei dati forensi)? Oppure, è nelle prime fasi dell'analisi, in cui sto studiando informalmente domande specifiche (ad esempio, esiste una relazione tra due variabili?) Prima di passare a sviluppare un modello formale? In breve, se ti sorprendi a elaborare grafici e tabelle ma non riesci a indicare chiaramente qual è il tuo obiettivo immediato o perché tale trama / tavolo è pertinente, allora sai che '
Cerco di avvicinarmi all'analisi dei dati esplorativi come faccio io scrivendo, sia che si tratti di scrivere un programma o di scrivere un articolo. In entrambi i casi, non vorrei iniziare senza fare prima uno schema. Questo schema può cambiare (e spesso lo fa), ovviamente, ma iniziare a scrivere senza uno è inefficiente e spesso produce un prodotto finale scadente.
Organizzazione WRT, ogni analista deve trovare un flusso di lavoro che funzioni per lui - farlo è più importante dell'IMO che cercare di seguire rigidamente il flusso di lavoro di qualcun altro (anche se è sempre utile ottenere idee da ciò che fanno gli altri). Se stai lavorando a livello di codice (cioè scrivendo codice che può essere eseguito per generare / rigenerare un insieme di risultati) e controllando il tuo lavoro in git, allora sei già molto più avanti di molti in questo senso. Ho il sospetto che potresti aver solo bisogno di dedicare un po 'di tempo all'organizzazione del tuo codice e, per questo, suggerirei di seguire il tuo schema. Ad esempio, mantieni i tuoi file di analisi relativamente brevi e mirati, in modo che ognuno risponda a una domanda specifica (ad esempio, grafici diagnostici per un modello di regressione specifico). Organizzali in sottodirectory a uno o due livelli, a seconda delle dimensioni e della complessità del progetto. In questo modo, il progetto diventa auto-documentante; una vista elenco delle directory, delle sottodirectory e dei file (insieme al commento nella parte superiore di ogni file) dovrebbe, in teoria, riprodurre il tuo schema.
Naturalmente, in un grande progetto, potresti anche avere un codice che esegue la pulizia e la gestione dei dati, il codice che hai scritto per stimare un certo tipo di modello o altre utilità che hai scritto, e queste non si adattano al sostantivo struttura per l'analisi dei dati, quindi devono essere organizzati in una parte diversa della cartella del progetto.
Aggiornamento: dopo aver pubblicato questo, mi sono reso conto che non avevo indirizzato direttamente la tua domanda su "vicoli ciechi". Se decidi davvero che un intero set di analisi non ha alcun valore, quindi se lavori in git, puoi sempre eliminare i file corrispondenti con un messaggio di commit come "Abbandonato questa linea di analisi perché non lo era produttivo." A differenza di accartocciare ciò che hai scritto e gettarlo nella spazzatura, puoi sempre tornare a ciò che hai fatto in seguito, se lo desideri.
Tuttavia, penso che scoprirai che se passi da uno schema a cui hai pensato, avrai meno cosiddetti vicoli ciechi. Invece, se passi il tempo a indagare su una domanda utile e pertinente, anche se ciò porta a una scoperta nulla o non si presenta come previsto, probabilmente vorrai comunque tenere un registro di ciò che hai fatto e del risultato (a un minimo, in modo da non commettere l'errore di ripeterlo in seguito). Basta spostarli nella parte inferiore del contorno, in una sorta di "Appendice".