La pulizia dei dati è una fase preliminare dell'analisi statistica in cui il set di dati viene modificato per correggere gli errori e metterlo in una forma adatta per l'elaborazione da parte del software statistico.
Motivazione Lavoro con set di dati che contengono informazioni di identificazione personale (PII) e talvolta ho bisogno di condividere parte di un set di dati con terze parti, in un modo che non espone le PII e sottopone il mio datore di lavoro alla responsabilità. Il nostro approccio abituale qui …
Dalla mia limitata conoscenza della scienza dei dati con R, mi sono reso conto che la pulizia dei dati errati è una parte molto importante della preparazione dei dati per l'analisi. Esistono best practice o processi per la pulizia dei dati prima dell'elaborazione? In tal caso, esistono strumenti automatizzati o …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
Data una frase del tipo: Complimentary gym access for two for the length of stay ($12 value per person per day) Quale approccio generale posso adottare per identificare la parola palestra o accesso alla palestra?
Avendo molti documenti di testo (in linguaggio naturale, non strutturato), quali sono i modi possibili per annotarli con alcuni metadati semantici? Ad esempio, considera un breve documento: I saw the company's manager last day. Per poter estrarre informazioni da esso, devono essere annotate con dati aggiuntivi per essere meno ambigue. …
Sto lavorando a una sfida di Kaggle in cui alcune variabili sono rappresentate da righe anziché da colonne (interruzione della rete Telstra). Attualmente sto cercando l'equivalente di gather (), separate () e spread (), che si trova nello strumento R tidyr.
Vorrei sapere come abbinare gli indirizzi postali quando il loro formato differisce o quando uno di essi è scritto male. Finora ho trovato diverse soluzioni, ma penso che siano piuttosto vecchie e non molto efficienti. Sono sicuro che esistono alcuni metodi migliori, quindi se hai dei riferimenti da leggere, sono …
Lavoro in un ufficio in cui SQL Server è la spina dorsale di tutto ciò che facciamo, dall'elaborazione dei dati alla pulizia fino alla pulizia. Il mio collega è specializzato nella scrittura di funzioni complesse e procedure memorizzate per elaborare metodicamente i dati in entrata in modo che possano essere …
Ho un dataframe che, tra l'altro, contiene una colonna del numero di millisecondi passati dal 1970-1-1. Devo convertire questa colonna di ints in dati di data / ora, quindi posso in definitiva convertirla in una colonna di dati di data / ora aggiungendo la serie di colonne di data / …
Capisco cosa fa lo scalare standard e cosa fa il normalizzatore, secondo la documentazione di scikit: normalizzatore , scaler standard . So quando viene applicato lo scaler standard. Ma in quale scenario viene applicato Normalizer? Ci sono scenari in cui uno è preferito rispetto all'altro?
Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
Ho lavorato sull'apprendimento automatico e la bioinformatica per un po ', e oggi ho avuto una conversazione con un collega sui principali problemi generali del data mining. Il mio collega (che è un esperto di apprendimento automatico) ha affermato che, a suo avviso, l'aspetto pratico probabilmente più importante dell'apprendimento automatico …
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …
Ho un frame di dati Panda (X11) come questo: In realtà ho 99 colonne fino a dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.