Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Nel filtro collaborativo, abbiamo valori che non sono stati inseriti. Supponiamo che un utente non abbia guardato un film, quindi dobbiamo inserire un "na". Se ho intenzione di prendere un SVD di questa matrice, allora devo inserire un numero in essa - diciamo 0. Ora se fattorizzo la matrice, ho …
C'è un'immagine nella pagina 204, capitolo 4 di "Riconoscimento di modelli e apprendimento automatico" di Bishop, in cui non capisco perché la soluzione del quadrato minimo dia scarsi risultati qui: Il paragrafo precedente riguardava il fatto che le soluzioni dei minimi quadrati mancano di robustezza per i valori anomali, come …
Mi chiedevo se qualcuno potesse dare un riassunto conciso delle definizioni e degli usi dei valori p, del livello di significatività e dell'errore di tipo I. Comprendo che i valori di p sono definiti come "la probabilità di ottenere una statistica di test almeno estrema quanto quella che abbiamo effettivamente …
Sono interessato a confrontare la quantità di variabilità all'interno di 8 diversi campioni (ciascuno di una popolazione diversa). Sono consapevole che ciò può essere fatto con diversi metodi con dati di rapporto: uguaglianza di varianza F-test, test di Levene, ecc. Tuttavia, i miei dati sono circolari / direzionali (ovvero dati …
Ho un numero di osservazioni multivariate e vorrei valutare la densità di probabilità in tutte le variabili. Si presume che i dati siano normalmente distribuiti. Con un numero basso di variabili tutto funziona come mi aspetterei, ma passare a un numero maggiore comporta che la matrice di covarianza diventi definita …
Il seguente estratto è tratto dall'Hedge Fund Market Wizzards di Schwager (maggio 2012), un'intervista al gestore di hedge fund di successo costantemente Jaffray Woodriff: Alla domanda: "Quali sono alcuni dei peggiori errori che le persone commettono nel data mining?": Molte persone pensano di stare bene perché usano i dati all'interno …
Di recente ho intrapreso il montaggio di modelli misti di regressione nel framework bayesiano, utilizzando un algoritmo MCMC (funzione MCMCglmm in R in realtà). Credo di aver capito come diagnosticare la convergenza del processo di stima (traccia, grafico geweke, autocorrelazione, distribuzione posteriore ...). Una delle cose che mi colpisce nel …
Mi chiedo quale sia la relazione esatta tra parziale e coefficienti in un modello lineare e se dovrei usare solo uno o entrambi per illustrare l'importanza e l'influenza dei fattori.R2R2R^2 Per quanto ne so, con summaryottengo stime dei coefficienti e con anovala somma dei quadrati per ciascun fattore - la …
Sto facendo delle ricerche ma sono rimasto bloccato nella fase di analisi (avrei dovuto prestare maggiore attenzione alle mie lezioni sulle statistiche). Ho raccolto due segnali simultanei: portata integrata per volume e variazione dell'espansione del torace. Vorrei confrontare i segnali e alla fine spero di ricavare volume dal segnale di …
Mi ritrovo spesso ad allenare diversi modelli predittivi usando caretin R. Li addestrerò tutti sulle stesse pieghe di convalida incrociata, usando caret::: createFolds, quindi sceglierò il modello migliore in base all'errore di convalida incrociata. Tuttavia, la previsione mediana di diversi modelli sovraperforma spesso il miglior modello singolo su un set …
Supponiamo che tu stia analizzando un enorme insieme di dati al ritmo di miliardi di osservazioni al giorno, in cui ogni osservazione ha un paio di migliaia di variabili numeriche e categoriche sparse e possibilmente ridondanti. Diciamo che c'è un problema di regressione, un problema di classificazione binaria sbilanciato e …
Questa domanda è stata migrata da Mathematics Stack Exchange perché può essere risolta su Cross Validated. Migrato 7 anni fa . In questo momento sto imparando l'analisi della regressione e l'analisi della varianza. Nell'analisi di regressione hai una variabile fissa e vuoi sapere come va la variabile con l'altra variabile. …
\newcommand{\P}{\mathbb{P}} Supponiamo di avere variabili casuali indipendenti , , con mezzi finiti e varianze , \ ldots , \ sigma_N ^ 2 . Sto cercando limiti senza distribuzione sulla probabilità che qualsiasi X_i \ neq X_N sia più grande di tutti gli altri X_j , j \ neq i .X …
Mi sono imbattuto in uno scenario in cui ho 10 segnali / persona per 10 persone (quindi 100 campioni) contenenti 14000 punti dati (dimensioni) che devo passare a un classificatore. Vorrei ridurre la dimensionalità di questi dati e PCA sembra essere il modo per farlo. Tuttavia, sono stato in grado …
SPSS utilizza il test Levene per valutare l'omogeneità delle varianze nella procedura t-test di gruppo indipendente. Perché il test di Levene è migliore di un semplice rapporto F del rapporto delle varianze dei due gruppi?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.