Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Sto leggendo l' entropia e sto facendo fatica a concettualizzare cosa significhi nel caso continuo. La pagina wiki afferma quanto segue: La distribuzione di probabilità degli eventi, unita alla quantità di informazioni di ogni evento, forma una variabile casuale il cui valore atteso è la quantità media di informazioni, o …
A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri? Ad esempio, ci sono due serie di informazioni …
Quando si esegue la regressione, ad esempio, due iper parametri da scegliere sono spesso la capacità della funzione (ad es. Il più grande esponente di un polinomio) e la quantità di regolarizzazione. Ciò di cui sono confuso, è perché non scegliere semplicemente una funzione a bassa capacità e quindi ignorare …
Stavo leggendo questo articolo e sono curioso di trovare la risposta adeguata a questa domanda. L'unica cosa che mi viene in mente è forse che in alcuni paesi il separatore decimale è una virgola e potrebbe essere un problema quando si condividono dati in CSV , ma non sono davvero …
Mi sono imbattuto in questo documento che utilizza il rilevamento delle anomalie dei collegamenti per prevedere argomenti di tendenza e l'ho trovato incredibilmente intrigante: il documento è "Scoprire gli argomenti emergenti nei flussi sociali tramite il rilevamento delle anomalie dei collegamenti" . Mi piacerebbe replicarlo su un set di dati …
Voglio eseguire la regressione logistica con la seguente risposta binomiale e con e come miei predittori. X1X1X_1X2X2X_2 Posso presentare gli stessi dati delle risposte di Bernoulli nel seguente formato. Gli output di regressione logistica per questi 2 set di dati sono sostanzialmente gli stessi. I residui di devianza e AIC …
Di solito uso il BIC perché intendo che apprezza la parsimonia più fortemente di quanto non faccia l'AIC. Tuttavia, ho deciso di utilizzare un approccio più completo ora e vorrei usare anche AIC. So che Raftery (1995) ha presentato buone linee guida per le differenze BIC: 0-2 è debole, 2-4 …
Dalla documentazione per anova(): Quando viene data una sequenza di oggetti, 'anova' verifica i modelli l'uno contro l'altro nell'ordine specificato ... Cosa significa testare i modelli l'uno contro l'altro? E perché l'ordine conta? Ecco un esempio dal tutorial di GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > …
Ho sentito che correlazioni parziali tra variabili casuali possono essere trovate invertendo la matrice di covarianza e prendendo le cellule appropriate da tale matrice di precisione risultante (questo fatto è menzionato in http://en.wikipedia.org/wiki/Partial_correlation , ma senza una prova) . Perché è così?
Sono interessato alla seguente versione unilaterale di Cantelli della disuguaglianza di Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Fondamentalmente, se conosci la media e la varianza della popolazione, puoi calcolare il limite superiore sulla probabilità di osservare un certo valore. (Questa …
Quando guardo le notizie ho notato che i sondaggi di Gallup per cose come le elezioni presidenziali hanno [presumo casuali] dimensioni del campione di ben oltre 1.000. Da ciò che ricordo dalle statistiche del college era che una dimensione del campione di 30 era un campione "significativamente grande". È stato …
Mi sono appena imbattuto nel quartetto di Anscombe (quattro set di dati che hanno statistiche descrittive quasi indistinguibili ma sembrano molto diversi quando vengono tracciati) e sono curioso di sapere se ci sono altri set di dati più o meno noti che sono stati creati per dimostrare l'importanza di alcuni …
Supponiamo che ci siano elementi divisi in due gruppi ( e ). La varianza del primo gruppo è e la varianza del secondo gruppo è . Si presume che gli elementi stessi siano sconosciuti, ma conosco i mezzi e .m + nm+nm+nmmmnnnσ2mσm2\sigma_m^2σ2nσn2\sigma^2_nμmμm\mu_mμnμn\mu_n C'è un modo per calcolare la varianza combinata …
Come è noto a tutti, SVM può usare il metodo kernel per proiettare punti dati in spazi più alti in modo che i punti possano essere separati da uno spazio lineare. Ma possiamo anche usare la regressione logistica per scegliere questo limite nello spazio del kernel, quindi quali sono i …
Sto adattando un lm()modello a un set di dati che include indicatori per il trimestre finanziario (Q1, Q2, Q3, rendendo il Q4 predefinito). Usando lm(Y~., data = data) Ottengo a NAcome coefficiente per Q3 e un avvertimento che una variabile è stata esclusa a causa delle singolarità. Devo aggiungere una …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.