Scienza dei dati statistics

1

Come ottenere la correlazione tra due variabili categoriali e una variabile categoriale e una variabile continua?

Sto costruendo un modello di regressione e devo calcolare il seguito per verificare le correlazioni Correlazione tra 2 variabili categoriali multilivello Correlazione tra una variabile categoriale multilivello e una variabile continua VIF (fattore di inflazione di varianza) per variabili categoriali multilivello Credo che sia sbagliato usare il coefficiente di correlazione …

63 r statistics correlation

5

Reti neurali: quale funzione di costo usare?

Sto usando TensorFlow per esperimenti principalmente con reti neurali. Anche se ho fatto alcuni esperimenti (XOR-Problem, MNIST, alcune cose di regressione, ...) ora, faccio fatica a scegliere la funzione di costo "corretta" per problemi specifici perché nel complesso potrei essere considerato un principiante. Prima di arrivare a TensorFlow ho codificato …

49 machine-learning python neural-network statistics tensorflow

11

Data Science in C (o C ++)

Sono un Rprogrammatore di lingue. Sono anche nel gruppo di persone che sono considerate Data Scientist ma che provengono da discipline accademiche diverse dalla CS. Questo funziona bene nel mio ruolo di Data Scientist, tuttavia, iniziando la mia carriera Re avendo solo una conoscenza di base di altri linguaggi di …

40 machine-learning bigdata statistics programming c

3

Calcolo e visualizzazione della matrice di correlazione con i panda

Ho un frame di dati Panda con diverse voci e voglio calcolare la correlazione tra le entrate di un tipo di negozi. Esistono numerosi negozi con dati sul reddito, classificazione dell'area di attività (teatro, negozi di vestiti, cibo ...) e altri dati. Ho provato a creare un nuovo frame di …

35 python statistics visualization pandas

4

Libri sulla "Scienza" in Data Science? [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Quali sono i libri sulla scienza e la matematica dietro la …

26 statistics reference-request

9

Qualche console R online?

Sto cercando una console online per la lingua R. Come scrivo il codice e il server dovrebbe eseguire e fornirmi l'output. Simile al sito Web Datacamp.

24 r statistics

4

Quale modello statistico dovrei usare per analizzare la probabilità che un singolo evento abbia influenzato i dati longitudinali

Sto cercando di trovare una formula, un metodo o un modello da utilizzare per analizzare la probabilità che un evento specifico abbia influenzato alcuni dati longitudinali. Sto avendo difficoltà a capire cosa cercare su Google. Ecco uno scenario di esempio: Immagina di possedere un'azienda che ha una media di 100 …

19 machine-learning data-mining statistics

4

Come specificare gli attributi importanti?

Supponiamo un insieme di dati vagamente strutturati (ad es. Tabelle Web / dati aperti collegati), composto da molte origini dati. Non esiste uno schema comune seguito dai dati e ogni fonte può usare attributi sinonimo per descrivere i valori (ad es. "Nazionalità" vs "bornIn"). Il mio obiettivo è trovare alcuni …

15 machine-learning statistics feature-selection

5

Libri di matematica per principianti per l'apprendimento automatico

Sono un ingegnere informatico senza esperienza in statistica o matematica avanzata. Sto studiando il libro Python Machine Learning di Raschka e Mirjalili, ma quando ho cercato di capire la matematica del Machine Learning, non sono riuscito a capire il grande libro che un amico mi suggerisce Gli elementi dell'apprendimento statistico …

14 machine-learning statistics reference-request math

2

Dati ad alta dimensione: quali sono le tecniche utili da sapere?

A causa di varie maledizioni di dimensionalità , l'accuratezza e la velocità di molte delle comuni tecniche predittive si riducono su dati ad alta dimensione. Quali sono alcune delle tecniche / trucchi / euristiche più utili che aiutano a gestire efficacemente i dati ad alta dimensione? Per esempio, Alcuni metodi …

14 machine-learning statistics dimensionality-reduction

3

Quando i valori di p sono ingannevoli?

Quali sono le condizioni dei dati a cui dovremmo prestare attenzione, in cui i valori p potrebbero non essere il modo migliore per decidere la significatività statistica? Esistono tipi di problemi specifici che rientrano in questa categoria?

14 bigdata statistics

1

Quante funzioni da campionare usando le foreste casuali

La pagina di Wikipedia che cita "Gli elementi dell'apprendimento statistico" dice: In genere, per un problema di classificazione con funzionalità ppp , le funzioni vengono utilizzate in ogni divisione.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Capisco che si tratta di una supposizione abbastanza istruita e probabilmente è stata confermata da prove empiriche, ma ci …

13 statistics random-forest optimization evaluation sampling

2

Analizzare i risultati del test A / B che non sono normalmente distribuiti, usando un test t indipendente

Ho una serie di risultati da un test A / B (un gruppo di controllo, un gruppo di funzioni) che non rientrano in una distribuzione normale. In effetti la distribuzione ricorda più da vicino la distribuzione di Landau. Credo che il test t indipendente richieda che i campioni siano almeno …

13 dataset statistics ab-test

6

Set di dati che comprendono le migliori pratiche

Sono uno studente master CS nel data mining. Il mio supervisore una volta mi disse che prima di eseguire qualsiasi classificatore o fare qualsiasi cosa con un set di dati, devo comprendere appieno i dati e assicurarmi che siano puliti e corretti. Le mie domande: Quali sono le migliori pratiche …

13 statistics dataset

3

Esistono buoni modelli linguistici predefiniti per Python?

Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

Domande taggate «statistics»