Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Supponiamo di avere alcuni dati storici, ad esempio i prezzi delle azioni precedenti, le fluttuazioni dei prezzi dei biglietti aerei, i dati finanziari passati dell'azienda ... Ora arriva qualcuno (o qualche formula) che dice "prendiamo / usiamo il registro della distribuzione" ed ecco dove vado PERCHÉ ? Domande: PERCHÉ si …
Sto lavorando con un piccolo set di dati (21 osservazioni) e ho il seguente diagramma QQ normale in R: Visto che la trama non supporta la normalità, cosa potrei dedurre sulla distribuzione sottostante? Mi sembra che una distribuzione più inclinata a destra sarebbe più adatta, giusto? Inoltre, quali altre conclusioni …
Ho notato ultimamente che molte persone stanno sviluppando equivalenti tensoriali di molti metodi (fattorizzazione tensoriale, kernel tensoriale, tensori per la modellazione di argomenti, ecc.) Mi chiedo, perché il mondo è improvvisamente affascinato dai tensori? Ci sono documenti recenti / risultati standard che sono particolarmente sorprendenti, che hanno portato a questo? …
Supponiamo che io voglia stimare un gran numero di parametri e voglio penalizzarne alcuni perché credo che dovrebbero avere scarso effetto rispetto agli altri. Come faccio a decidere quale schema di penalizzazione utilizzare? Quando è più appropriata la regressione della cresta? Quando dovrei usare il lazo?
Se hai una variabile che separa perfettamente gli zero e quelli nella variabile target, R produrrà il seguente messaggio di avviso di "separazione perfetta o quasi perfetta": Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Otteniamo ancora il modello ma le stime dei coefficienti sono gonfiate. Come gestisci …
Di recente ho letto un post di R-Blogger, collegato a questo post di John Myles White su una nuova lingua chiamata Julia . Julia si avvale di un compilatore just-in-time che gli fornisce tempi di esecuzione rapidi malvagi e lo pone sullo stesso ordine di grandezza della velocità di C …
Ci sono molte discussioni in corso su questo forum sul modo corretto di specificare vari modelli gerarchici usando lmer. Ho pensato che sarebbe bello avere tutte le informazioni in un unico posto. Un paio di domande per iniziare: Come specificare più livelli, in cui un gruppo è nidificato nell'altro: è …
Comprendo le differenze formali tra loro, quello che voglio sapere è quando è più pertinente usare l'uno contro l'altro. Forniscono sempre informazioni complementari sulle prestazioni di un determinato sistema di classificazione / rilevamento? Quando è ragionevole fornire entrambi, per esempio, in un documento? invece di uno solo? Esistono descrittori alternativi …
Dopo aver letto un set di dati: dataset <- read.csv("forR.csv") Come posso ottenere R per darmi il numero di casi che contiene? Inoltre, il valore restituito includerà i casi di esclusione omessi na.omit(dataset)?
So che generativo significa "basato su " e discriminante "basato su ", ma sono confuso su diversi punti:P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) Wikipedia (+ molti altri successi sul web) classificano come discriminatori SVM e alberi delle decisioni. Ma questi non hanno nemmeno interpretazioni probabilistiche. Cosa significa discriminante qui? La discriminazione è appena arrivata a …
Quali sono le principali differenze tra l'esecuzione dell'analisi dei componenti principali (PCA) sulla matrice di correlazione e la matrice di covarianza? Danno gli stessi risultati?
Nella pagina Wikipedia sugli ingenui classificatori Bayes , c'è questa linea: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Una distribuzione di probabilità su 1 è OK. È l'area sotto la curva della campana che è uguale a 1.) Come può un valore essere OK? Pensavo che tutti i valori di probabilità fossero espressi nell'intervallo …
Mi chiedo come scegliere un modello predittivo dopo aver eseguito la convalida incrociata di K-fold. Questo può essere espresso in modo strano, quindi lasciatemi spiegare in modo più dettagliato: ogni volta che eseguo la convalida incrociata di K-fold, utilizzo K sottoinsiemi dei dati di allenamento e finisco con K diversi …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.