Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Secondo una definizione classica di valore anomalo come punto dati esterno all'IQR 1.5 * dal quartile superiore o inferiore, si presume una distribuzione non distorta. Per le distribuzioni distorte (esponenziale, Poisson, geometrico, ecc.) È il modo migliore per rilevare un valore anomalo analizzando una trasformazione della funzione originale? Ad esempio, …
Normalmente nell'analisi dei componenti principali (PCA) vengono utilizzati i primi PC e i PC a bassa varianza vengono eliminati, in quanto non spiegano gran parte della variazione dei dati. Tuttavia, ci sono esempi in cui i PC a bassa variazione sono utili (ovvero hanno un uso nel contesto dei dati, …
Ho letto un paio di spiegazioni dell'algoritmo EM (ad es. Da Bishop's Pattern Recognition and Machine Learning e da Roger and Gerolami First Course on Machine Learning). La derivazione di EM è ok, lo capisco. Capisco anche perché l'algoritmo copre qualcosa: ad ogni passo miglioriamo il risultato e la probabilità …
Questa domanda è stata migrata da Mathematics Stack Exchange perché può essere risolta su Cross Validated. Migrato 6 anni fa . Ho studiato il modello dei rischi proporzionali di Cox e questa domanda è stata chiarita nella maggior parte dei testi. Cox ha proposto di adattare i coefficienti della funzione …
Qual è il metodo di campionamento più appropriato per valutare le prestazioni di un classificatore su un particolare set di dati e confrontarlo con altri classificatori? La convalida incrociata sembra essere una pratica standard, ma ho letto che metodi come il bootstrap .632 sono una scelta migliore. Come follow-up: la …
Ho un problema ad abbracciare i vantaggi di etichettare un fattore modello come casuale per alcuni motivi. A me sembra che in quasi tutti i casi la soluzione ottimale sia quella di trattare tutti i fattori come fissi. Innanzitutto, la distinzione tra fisso e casuale è abbastanza arbitraria. La spiegazione …
Ho letto da qualche parte in letteratura che il test di Shapiro-Wilk è considerato il miglior test di normalità perché per un dato livello di significatività, , la probabilità di rifiutare l'ipotesi nulla se è falsa è più alta che nel caso dell'altra test di normalità.αα\alpha Potresti spiegarmi, usando gli …
Problema Nella regressione si calcola di solito l' errore quadratico medio (MSE) per un campione: per misurare la qualità di un predittore.MSE = 1nΣi = 1n( g( xio) - gˆ( xio) )2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 In questo momento sto lavorando a un problema di regressione in cui …
Esiste un metodo comune utilizzato per determinare quanti campioni di addestramento sono necessari per addestrare un classificatore (un LDA in questo caso) per ottenere una precisione minima di generalizzazione della soglia? Lo sto chiedendo perché vorrei minimizzare il tempo di calibrazione normalmente richiesto in un'interfaccia cervello-computer.
Ho una tabella di database di trasferimenti di dati tra nodi diversi. Questo è un enorme database (con quasi 40 milioni di trasferimenti). Uno degli attributi è il numero di trasferimenti di byte (nbyte) che vanno da 0 byte a 2 tera byte. Vorrei raggruppare gli nbyte in modo tale …
Ho letto che il test t è "ragionevolmente robusto" quando le distribuzioni dei campioni si discostano dalla normalità. Naturalmente, è la distribuzione campionaria delle differenze che sono importanti. Ho dei dati per due gruppi. Uno dei gruppi è fortemente distorto sulla variabile dipendente. La dimensione del campione è piuttosto piccola …
Se la migliore approssimazione lineare (usando i minimi quadrati) dei miei punti dati è la linea , come posso calcolare l'errore di approssimazione? Se computo la deviazione standard delle differenze tra osservazioni e previsioni , posso in seguito dire che un valore reale (ma non osservato) appartiene all'intervallo ( ) …
Nell'analisi di regressione lineare, analizziamo valori anomali, studiamo la multicollinearità, testiamo l'eteroscedasticità. La domanda è: esiste un ordine per applicarli? Voglio dire, dobbiamo prima analizzare gli outlier e quindi esaminare la multicollinearità? O al contrario? C'è qualche regola empirica al riguardo?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.