Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


5
Esempi di PCA in cui i PC con bassa varianza sono "utili"
Normalmente nell'analisi dei componenti principali (PCA) vengono utilizzati i primi PC e i PC a bassa varianza vengono eliminati, in quanto non spiegano gran parte della variazione dei dati. Tuttavia, ci sono esempi in cui i PC a bassa variazione sono utili (ovvero hanno un uso nel contesto dei dati, …
24 pca 




3
Convalida incrociata o bootstrap per valutare le prestazioni di classificazione?
Qual è il metodo di campionamento più appropriato per valutare le prestazioni di un classificatore su un particolare set di dati e confrontarlo con altri classificatori? La convalida incrociata sembra essere una pratica standard, ma ho letto che metodi come il bootstrap .632 sono una scelta migliore. Come follow-up: la …


4
Shapiro-Wilk è il miglior test di normalità? Perché potrebbe essere migliore di altri test come Anderson-Darling?
Ho letto da qualche parte in letteratura che il test di Shapiro-Wilk è considerato il miglior test di normalità perché per un dato livello di significatività, , la probabilità di rifiutare l'ipotesi nulla se è falsa è più alta che nel caso dell'altra test di normalità.αα\alpha Potresti spiegarmi, usando gli …



2
Quanto è necessario un set di allenamento?
Esiste un metodo comune utilizzato per determinare quanti campioni di addestramento sono necessari per addestrare un classificatore (un LDA in questo caso) per ottenere una precisione minima di generalizzazione della soglia? Lo sto chiedendo perché vorrei minimizzare il tempo di calibrazione normalmente richiesto in un'interfaccia cervello-computer.

3
Determinare diversi cluster di dati 1d dal database
Ho una tabella di database di trasferimenti di dati tra nodi diversi. Questo è un enorme database (con quasi 40 milioni di trasferimenti). Uno degli attributi è il numero di trasferimenti di byte (nbyte) che vanno da 0 byte a 2 tera byte. Vorrei raggruppare gli nbyte in modo tale …

5
Quanto è solido il test t dei campioni indipendenti quando le distribuzioni dei campioni non sono normali?
Ho letto che il test t è "ragionevolmente robusto" quando le distribuzioni dei campioni si discostano dalla normalità. Naturalmente, è la distribuzione campionaria delle differenze che sono importanti. Ho dei dati per due gruppi. Uno dei gruppi è fortemente distorto sulla variabile dipendente. La dimensione del campione è piuttosto piccola …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.