Statistiche e Big Data

3

Rilevamento anomalo su distribuzioni distorte

Secondo una definizione classica di valore anomalo come punto dati esterno all'IQR 1.5 * dal quartile superiore o inferiore, si presume una distribuzione non distorta. Per le distribuzioni distorte (esponenziale, Poisson, geometrico, ecc.) È il modo migliore per rilevare un valore anomalo analizzando una trasformazione della funzione originale? Ad esempio, …

24 distributions outliers skewness exponential interquartile

5

Esempi di PCA in cui i PC con bassa varianza sono "utili"

Normalmente nell'analisi dei componenti principali (PCA) vengono utilizzati i primi PC e i PC a bassa varianza vengono eliminati, in quanto non spiegano gran parte della variazione dei dati. Tuttavia, ci sono esempi in cui i PC a bassa variazione sono utili (ovvero hanno un uso nel contesto dei dati, …

24 pca

2

Perché l'algoritmo di ottimizzazione delle aspettative è garantito per convergere in un ottimale locale?

Ho letto un paio di spiegazioni dell'algoritmo EM (ad es. Da Bishop's Pattern Recognition and Machine Learning e da Roger and Gerolami First Course on Machine Learning). La derivazione di EM è ok, lo capisco. Capisco anche perché l'algoritmo copre qualcosa: ad ogni passo miglioriamo il risultato e la probabilità …

24 missing-data convergence expectation-maximization

1

Regressione con solo variabili categoriali

È possibile condurre una regressione se tutte le variabili dipendenti e indipendenti sono variabili categoriali?

24 regression logistic categorical-data

2

Nell'analisi di sopravvivenza, perché utilizziamo modelli semi-parametrici (rischi proporzionali di Cox) invece di modelli completamente parametrici?

Questa domanda è stata migrata da Mathematics Stack Exchange perché può essere risolta su Cross Validated. Migrato 6 anni fa . Ho studiato il modello dei rischi proporzionali di Cox e questa domanda è stata chiarita nella maggior parte dei testi. Cox ha proposto di adattare i coefficienti della funzione …

24 survival cox-model

3

Convalida incrociata o bootstrap per valutare le prestazioni di classificazione?

Qual è il metodo di campionamento più appropriato per valutare le prestazioni di un classificatore su un particolare set di dati e confrontarlo con altri classificatori? La convalida incrociata sembra essere una pratica standard, ma ho letto che metodi come il bootstrap .632 sono una scelta migliore. Come follow-up: la …

24 machine-learning classification predictive-models cross-validation bootstrap

5

Qual è il vantaggio di trattare un fattore come casuale in un modello misto?

Ho un problema ad abbracciare i vantaggi di etichettare un fattore modello come casuale per alcuni motivi. A me sembra che in quasi tutti i casi la soluzione ottimale sia quella di trattare tutti i fattori come fissi. Innanzitutto, la distinzione tra fisso e casuale è abbastanza arbitraria. La spiegazione …

24 model-selection random-effects-model aic fixed-effects-model mixed-model

4

Shapiro-Wilk è il miglior test di normalità? Perché potrebbe essere migliore di altri test come Anderson-Darling?

Ho letto da qualche parte in letteratura che il test di Shapiro-Wilk è considerato il miglior test di normalità perché per un dato livello di significatività, , la probabilità di rifiutare l'ipotesi nulla se è falsa è più alta che nel caso dell'altra test di normalità.αα\alpha Potresti spiegarmi, usando gli …

24 hypothesis-testing normal-distribution normality-assumption

4

Dati i tassi di vero positivo, falso negativo, puoi calcolare falso positivo, vero negativo?

Ho valori per True Positive (TP)e False Negative (FN)come segue: TP = 0.25 FN = 0.75 Da questi valori, possiamo calcolare False Positive (FP)e True Negative (TN)?

24 roc confusion-matrix sensitivity-specificity

2

Come progettare e implementare una funzione di perdita asimmetrica per la regressione?

Problema Nella regressione si calcola di solito l' errore quadratico medio (MSE) per un campione: per misurare la qualità di un predittore.MSE = 1nΣi = 1n( g( xio) - gˆ( xio) )2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 In questo momento sto lavorando a un problema di regressione in cui …

24 regression error loss-functions

2

Quanto è necessario un set di allenamento?

Esiste un metodo comune utilizzato per determinare quanti campioni di addestramento sono necessari per addestrare un classificatore (un LDA in questo caso) per ottenere una precisione minima di generalizzazione della soglia? Lo sto chiedendo perché vorrei minimizzare il tempo di calibrazione normalmente richiesto in un'interfaccia cervello-computer.

24 classification

3

Determinare diversi cluster di dati 1d dal database

Ho una tabella di database di trasferimenti di dati tra nodi diversi. Questo è un enorme database (con quasi 40 milioni di trasferimenti). Uno degli attributi è il numero di trasferimenti di byte (nbyte) che vanno da 0 byte a 2 tera byte. Vorrei raggruppare gli nbyte in modo tale …

24 clustering k-means

5

Quanto è solido il test t dei campioni indipendenti quando le distribuzioni dei campioni non sono normali?

Ho letto che il test t è "ragionevolmente robusto" quando le distribuzioni dei campioni si discostano dalla normalità. Naturalmente, è la distribuzione campionaria delle differenze che sono importanti. Ho dei dati per due gruppi. Uno dei gruppi è fortemente distorto sulla variabile dipendente. La dimensione del campione è piuttosto piccola …

24 t-test assumptions normality-assumption robust

1

Intervallo di previsione della regressione lineare

Se la migliore approssimazione lineare (usando i minimi quadrati) dei miei punti dati è la linea , come posso calcolare l'errore di approssimazione? Se computo la deviazione standard delle differenze tra osservazioni e previsioni , posso in seguito dire che un valore reale (ma non osservato) appartiene all'intervallo ( ) …

24 regression normal-distribution least-squares prediction-interval

2

In quale ordine è necessario eseguire la diagnostica della regressione lineare?

Nell'analisi di regressione lineare, analizziamo valori anomali, studiamo la multicollinearità, testiamo l'eteroscedasticità. La domanda è: esiste un ordine per applicarli? Voglio dire, dobbiamo prima analizzare gli outlier e quindi esaminare la multicollinearità? O al contrario? C'è qualche regola empirica al riguardo?

24 regression multiple-regression outliers