Statistiche e Big Data

8

Libro da leggere prima di Elements of Statistical Learning?

Sulla base di questo post , desidero digerire Elements of Statistical Learning. Fortunatamente è disponibile gratuitamente e ho iniziato a leggerlo. Non ho abbastanza conoscenze per capirlo. Puoi consigliarmi un libro che è una migliore introduzione agli argomenti del libro? Eventualmente qualcosa che mi darà le conoscenze necessarie per capirlo? …

50 machine-learning references

6

Quale libro è raccomandabile per iniziare ad apprendere le statistiche usando R contemporaneamente?

Libri per imparare le statistiche usando R Qual è esattamente il libro che sto cercando. Quello che sto cercando è un libro che ti insegna le statistiche mentre usi R per darti esperienza pratica e quindi finire per aiutarti a imparare R insieme. Ho visto su Amazon molti libri che …

50 r references

5

Qual è la differenza tra N e N-1 nel calcolo della varianza della popolazione?

Non ho capito perché ci sono Ne N-1nel calcolo della varianza della popolazione. Quando usiamo Ne quando usiamo N-1? Clicca qui per una versione più grande Dice che quando la popolazione è molto grande non c'è differenza tra N e N-1 ma non dice perché all'inizio c'è N-1. Modifica: per …

50 variance population

3

Come definiamo la "ricerca riproducibile"?

Questo è emerso in alcune domande ora, e mi chiedevo qualcosa. Il campo nel suo insieme si è spostato verso la "riproducibilità" concentrandosi sulla disponibilità dei dati originali e sul codice in questione? Mi è stato sempre insegnato che il nucleo della riproducibilità non era necessariamente, come ho fatto riferimento …

50 reproducible-research philosophical

13

Software per disegnare reti bayesiane (modelli grafici)

Sto cercando un software [gratuito] in grado di produrre modelli grafici dall'aspetto gradevole, ad es Tutti i suggerimenti sarebbero apprezzati.

50 graphical-model software

5

Ortografia corretta (maiuscole, corsivo, sillabazione) di "valore p"?

Mi rendo conto che questo è pedante e banale, ma come ricercatore in un campo al di fuori delle statistiche, con un'educazione formale limitata nelle statistiche, mi chiedo sempre se sto scrivendo correttamente il "valore p". In particolare: La "p" dovrebbe essere maiuscola? La "p" dovrebbe essere in corsivo? (O …

50 hypothesis-testing p-value terminology

6

La regressione della cresta è inutile in dimensioni elevate (

Considera un buon vecchio problema di regressione con predittori e dimensione del campione . La solita saggezza è che lo stimatore OLS si sovraccaricherà e sarà generalmente sovraperformato dallo stimatore della regressione della cresta:È standard utilizzare la convalida incrociata per trovare un parametro di regolarizzazione ottimale . Qui uso un …

50 cross-validation regularization overfitting ridge-regression shrinkage

1

Codifica one-hot vs dummy in Scikit-learn

Esistono due modi diversi per codificare le variabili categoriali. Supponiamo che una variabile categoriale abbia n valori. La codifica one-hot lo converte in n variabili, mentre la codifica fittizia lo converte in n-1 variabili. Se abbiamo k variabili categoriali, ognuna delle quali ha n valori. Una codifica a caldo termina …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

3

Qual è l'intuizione dietro SVD?

Ho letto della decomposizione a valore singolare (SVD). In quasi tutti i libri di testo viene menzionato il fatto che fattorizza la matrice in tre matrici con specifiche specificate. Ma qual è l'intuizione dietro la divisione della matrice in tale forma? PCA e altri algoritmi per la riduzione della dimensionalità …

50 matrix linear-algebra svd intuition

2

C'è una differenza tra "controllare per" e "ignorare" altre variabili nella regressione multipla?

Il coefficiente di una variabile esplicativa in una regressione multipla ci dice la relazione di quella variabile esplicativa con la variabile dipendente. Tutto questo, pur "controllando" le altre variabili esplicative. Come l'ho visto finora: Durante il calcolo di ciascun coefficiente, le altre variabili non vengono prese in considerazione, quindi le …

50 regression multiple-regression

3

Clustering con K-Means e EM: come sono correlati?

Ho studiato algoritmi per il clustering dei dati (apprendimento non supervisionato): EM e k-medie. Continuo a leggere quanto segue: k-mean è una variante di EM, con le ipotesi che i cluster siano sferici. Qualcuno può spiegare la frase sopra? Non capisco cosa significhino sferica, e come siano correlati kmean ed …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Ottenere valori previsti (Y = 1 o 0) da un adattamento del modello di regressione logistica

Diciamo che ho un oggetto di classe glm(corrispondente a un modello di regressione logistica) e vorrei trasformare le probabilità previste fornite predict.glmutilizzando l'argomento type="response"in risposte binarie, ovvero o . Qual è il modo più rapido e canonico per farlo in R?Y=1Y=1Y=1Y=0Y=0Y=0 Mentre, ancora una volta, ne sono a conoscenza predict.glm, …

50 r generalized-linear-model logistic

4

Perché preoccuparsi del doppio problema quando si adatta SVM?

Dati i punti dati e le etichette , il problema principale SVM del margine rigido èx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 che è un programma …

50 svm

16

Libri consigliati sulla progettazione di esperimenti?

Quali sono i consigli del panel per i libri sulla progettazione di esperimenti? Idealmente, i libri dovrebbero essere ancora in stampa o disponibili elettronicamente, anche se ciò potrebbe non essere sempre fattibile. Se ti senti commosso per aggiungere qualche parola su ciò che è così bello del libro, sarebbe fantastico. …

50 references experiment-design

4

Perché ANOVA equivale alla regressione lineare?

Ho letto che ANOVA e regressione lineare sono la stessa cosa. Come può essere, considerando che l'output di ANOVA è un valore e un valore base ai quali si conclude se il campione significa che i diversi campioni sono uguali o diversi.pFFFppp Ma supponendo che i mezzi non siano uguali …

50 regression anova