Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
In due articoli del 1986 e del 1988 , Connor e Korajczyk hanno proposto un approccio alla modellizzazione dei rendimenti delle attività. Dato che queste serie temporali di solito hanno più risorse rispetto alle osservazioni sul periodo, hanno proposto di eseguire un PCA sulle covarianze trasversali dei rendimenti delle attività. …
Sto cercando un'alternativa agli alberi di classificazione che potrebbe produrre un migliore potere predittivo. I dati con cui ho a che fare hanno fattori sia per le variabili esplicative che per quelle spiegate. Ricordo di essermi imbattuto in foreste casuali e reti neurali in questo contesto, sebbene non le avessi …
Quando si preferirebbe utilizzare un modello autoregressivo condizionale su un modello autoregressivo simultaneo quando si modellano dati aerei georiferiti autocorrelati?
Domande: Ho una grande matrice di correlazione. Invece di raggruppare singole correlazioni, voglio raggruppare le variabili in base alle loro correlazioni reciproche, vale a dire se la variabile A e la variabile B hanno correlazioni simili alle variabili da C a Z, allora A e B dovrebbero far parte dello …
Quali sono i metodi generali per rilevare frodi, anomalie, confusione, ecc. Nelle opere scientifiche prodotte da terzi? (Sono stato motivato a chiedere questo dalla recente vicenda Marc Hauser .) Di solito per frode elettorale e contabile, viene citata una variante della legge di Benford . Non sono sicuro di come …
Questo è il seguito di una domanda StackOverflow sul mescolamento casuale di un array . Esistono algoritmi consolidati (come il Knuth-Fisher-Yates Shuffle ) che si dovrebbe usare per mescolare un array, piuttosto che fare affidamento su implementazioni ad hoc "ingenue". Ora sono interessato a provare (o smentire) che il mio …
Di recente ho iniziato a lavorare in una clinica per la tubercolosi. Ci incontriamo periodicamente per discutere il numero di casi di tubercolosi che stiamo attualmente trattando, il numero di test somministrati, ecc. Vorrei iniziare a modellare questi conteggi in modo da non indovinare solo se qualcosa di insolito o …
La definizione del parametro min_child_weight in xgboost è data come: somma minima del peso dell'istanza (hessiana) necessaria in un bambino. Se il passaggio della partizione dell'albero risulta in un nodo foglia con la somma del peso dell'istanza inferiore a min_child_weight, il processo di costruzione rinuncerà a un ulteriore partizionamento. In …
Negli ultimi anni sono stati utilizzati meccanismi di attenzione in vari articoli di Deep Learning. Ilya Sutskever, responsabile della ricerca presso Open AI, li ha entusiasti con entusiasmo: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello alla Purdue University ha affermato che le RNN e le LSTM dovrebbero essere abbandonate a favore di reti neurali …
Sto cercando di farsi un'idea dei relativi pregi e svantaggi, nonché dei diversi domini applicativi di questi due schemi MCMC. Quando useresti quale e perché? Quando uno potrebbe fallire ma l'altro no (ad es. Dove è applicabile HMC ma SMC no, e viceversa) Uno potrebbe, in modo molto ingenuo, mettere …
Ho visto due tipi di formulazioni logistiche di perdita. Possiamo facilmente dimostrare che sono identici, l'unica differenza è la definizione dell'etichetta yyy . Formulazione / notazione 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\} : L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog(p)−(1−y)log(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) dove p=11+exp(−βTx)p=11+exp(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)} , in cui la funzione logistica associa un numero realeβTxβTx\beta^T xa intervalli …
Questa domanda è stata migrata dallo Stack Overflow perché è possibile rispondere su Convalida incrociata. Migrato 3 anni fa . Nelle statistiche stiamo facendo regressioni lineari, il loro inizio. In generale, sappiamo che maggiore è l' meglio è, ma c'è mai uno scenario in cui un R 2 alto sarebbe …
In inferenza statistica , problema 9.6b, è menzionato un "regione più alta densità (HDR)". Tuttavia, non ho trovato la definizione di questo termine nel libro. Un termine simile è la più alta densità posteriore (HPD). Ma non rientra in questo contesto, poiché 9.6b non menziona nulla di un precedente. E …
Mi chiedevo quali sono i diversi casi d'uso per i due algoritmi, Coordinate Descent e Gradient Descent . So che la discesa delle coordinate ha problemi con funzioni non fluide, ma è utilizzata in algoritmi popolari come SVM e LASSO. Penso che la discesa gradiente sia usata più ampiamente, specialmente …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.