Sottolineo già tutte le risposte fornite, ma chiamiamo un gatto un gatto: in molte aree di lavoro è quasi impossibile convincere il management che è necessario l'investimento in software "esotici" (esotici per loro), per non parlare dell'assunzione di qualcuno che potrebbe impostare su e mantenerlo. Ho detto ad alcuni clienti che trarrebbero grandi benefici dall'assumere uno statistico con un background approfondito su software e database, ma "no can do" è la risposta generale.
Quindi finché non accadrà, ci sono alcune semplici cose che puoi fare con Excel che renderanno la vita più facile. E il primo di questo è senza dubbio il controllo della versione. Ulteriori informazioni sul controllo delle versioni con Excel sono disponibili qui .
Alcune cose sull'uso di Excel
Le persone che usano EXCEL molto spesso apprezzano le caratteristiche della formula di EXCEL. Tuttavia, questa è la fonte più importante di errori all'interno dei fogli EXCEL e di problemi quando provo a leggere nei file EXCEL per quanto riguarda la mia esperienza. Mi rifiuto di lavorare con fogli contenenti formule.
Inoltre costringo tutti coloro con cui lavoro a consegnare i fogli EXCEL in un formato semplice, nel senso che:
- La prima riga contiene i nomi delle diverse variabili
- Il foglio di calcolo inizia nella cella A1
- Tutti i dati vengono inseriti in colonne, senza interruzioni e senza formattazione.
- Se possibile, i dati vengono salvati anche in formato .csv. Non è difficile scrivere uno script VBA che estrarrà i dati, lo riformatterà e lo inserirà in un file .csv. Ciò consente anche un migliore controllo della versione, in quanto è possibile effettuare un dump .csv dei dati ogni giorno.
Se esiste una struttura generale che i dati hanno sempre, potrebbe essere utile sviluppare un modello con macro VB sottostanti per aggiungere dati e generare il set di dati per l'analisi. Questo in generale eviterà che ogni dipendente abbia il proprio sistema "geniale" di archiviazione dei dati e ti permetterà di scrivere il tuo codice in funzione di ciò.
Detto questo, se riesci a convincere tutti a usare SQL (e un front-end per l'immissione di dati), puoi collegare R direttamente a quello. Ciò aumenterà notevolmente le prestazioni.
Struttura e gestione dei dati
Come regola generale, i dati memorizzati nei database (o fogli EXCEL se insistono) dovrebbero essere il minimo assoluto, il che significa che qualsiasi variabile che può essere calcolata da alcune altre variabili non dovrebbe essere contenuta nel database. Intendiamoci, a volte può essere utile memorizzare anche quelle variabili derivate o trasformate, se i calcoli sono noiosi e richiedono molto tempo. Ma questi dovrebbero essere archiviati in un database separato, se necessario collegato a quello originale.
Il pensiero dovrebbe essere dato anche a quello che viene considerato come un caso (e quindi una riga). Ad esempio, le persone tendono a produrre serie temporali creando una nuova variabile per ogni punto temporale. Sebbene ciò abbia senso in un EXCEL, la lettura di questi dati richiede una certa rotazione della matrice di dati. Lo stesso vale per i gruppi di confronto: dovrebbero esserci un indicatore di gruppo e una variabile di risposta, non una variabile di risposta per ciascun gruppo. In questo modo è possibile standardizzare anche le strutture di dati.
Un'ultima cosa che incontro di frequente è l'uso di metriche diverse. Le lunghezze sono espresse in metri o centimetri, le temperature in Celcius, Kelvin o Farenheit, ... Si dovrebbe indicare in qualsiasi front-end o modello quale unità è in cui viene misurata la variabile.
E anche dopo tutte queste cose, vuoi comunque avere una fase di controllo dei dati prima di iniziare effettivamente con l'analisi. Ancora una volta, questo può essere qualsiasi script che viene eseguito quotidianamente (ad es. Durante la notte) su nuove voci e che segnala immediatamente i problemi (fuori intervallo, tipo errato, campi mancanti, ...) in modo che possano essere corretti il più rapidamente possibile. Se devi tornare a una voce che è stata fatta 2 mesi fa per scoprire cosa c'è che non va e perché, è meglio ottenere alcune buone "abilità di Sherlock" per correggerlo.
i miei 2 centesimi