Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Sto montando un modello ARIMA su una serie storica giornaliera. I dati vengono raccolti quotidianamente dal 02-01-2010 al 30-07-2011 e riguardano le vendite di giornali. Poiché è possibile trovare un modello settimanale di vendite (la quantità media giornaliera di copie vendute è generalmente la stessa dal lunedì al venerdì, quindi …
Questa domanda è stata migrata dallo Stack Overflow perché è possibile rispondere su Convalida incrociata. Migrato 8 anni fa . Ho 2 variabili, entrambe della classe "numerico": > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 80.76974 132.90824 216.75995 153.25551 Li ho tracciati e ora …
Contesto Una domanda popolare su questo sito è " Cosa sono i peccati statistici comuni? ". Uno dei peccati menzionati sta assumendo che il collegamento "la correlazione implica la causalità ..." Quindi, nei commenti con 5 voti si suggerisce che: "Google guadagna $ 65 miliardi all'anno senza preoccuparsi della differenza". …
Mi chiedevo, è possibile avere un coefficiente di correlazione molto forte (diciamo .9 o superiore), con un valore di p elevato (diciamo .25 o superiore)? Ecco un esempio di un basso coefficiente di correlazione, con un valore p elevato: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0,03908927, …
Quasi ogni esempio di albero decisionale che ho incontrato sembra essere un albero binario. È praticamente universale? La maggior parte degli algoritmi standard (C4.5, CART, ecc.) Supporta solo alberi binari? Da quello che raccolgo, CHAID non si limita agli alberi binari, ma sembra essere un'eccezione. Una divisione a due vie …
Sto lottando per comprendere il concetto di distorsione nel contesto dell'analisi di regressione lineare. Qual è la definizione matematica di bias? Che cosa è esattamente di parte e perché / come? Esempio illustrativo?
Vorrei utilizzare un modello di regressione logistica binaria nel contesto dei dati di streaming (serie temporali multidimensionali) al fine di prevedere il valore della variabile dipendente dei dati (ovvero riga) appena arrivati, date le osservazioni passate. Per quanto ne so, la regressione logistica viene tradizionalmente utilizzata per l'analisi post mortem, …
Supponiamo che . Sono interessato alla distribuzione marginale degli elementi diagonali . Ci sono alcuni semplici risultati sulla distribuzione delle sottomatrici di (almeno alcune elencate su Wikipedia). Da ciò posso capire che la distribuzione marginale di ogni singolo elemento sulla diagonale è Gamma inversa. Ma non sono stato in grado …
Contesto Ho letto la teoria della risposta agli oggetti e la trovo affascinante. Credo di aver capito le basi, ma mi sono lasciato chiedendo come applicare le tecniche statistiche relative all'area. Di seguito sono riportati due articoli simili all'area in cui vorrei applicare ITR: http://www.jstor.org/stable/4640738?seq=7 http://www.ncbi.nlm.nih.gov/pubmed/21744971 Il secondo è quello …
In Modellistica statistica: Le due culture scrive Leo Breiman L'attuale pratica applicata è quella di verificare l'adattamento del modello di dati mediante test di bontà di adattamento e analisi residua. Ad un certo punto, alcuni anni fa, ho creato un problema di regressione simulato in sette dimensioni con una quantità …
Una regressione di Poisson è una GLM con una funzione log-link. Un modo alternativo per modellare i dati di conteggio non distribuiti normalmente è quello di preelaborare prendendo il registro (o meglio, registro (1 + conteggio) per gestire gli 0). Se si esegue una regressione dei minimi quadrati sulle risposte …
Bloccato . Questa domanda e le sue risposte sono bloccate perché la domanda è fuori tema ma ha un significato storico. Al momento non accetta nuove risposte o interazioni. Qualcuno potrebbe offrire alcuni suggerimenti su come utilizzare l' weightsargomento nella lmfunzione di R ? Ad esempio, stavi cercando di adattare …
Devo implementare un programma che classificherà i record in 2 categorie (vero / falso) sulla base di alcuni dati di addestramento e mi chiedevo quale algoritmo / metodologia dovrei guardare. Sembra che ce ne siano molti tra cui scegliere: rete neurale artificiale, algoritmo genetico, apprendimento automatico, ottimizzazione bayesiana ecc. Ecc., …
Sono interessato a saperne di più sulle tecniche bayesiane non parametriche (e relative). Il mio background è in informatica e anche se non ho mai seguito un corso di teoria della misura o teoria della probabilità, ho avuto una quantità limitata di formazione formale in probabilità e statistica. Qualcuno può …
Non sono affatto uno statistico (ho frequentato un corso di statistica matematica, ma niente di più) e recentemente, mentre studiavo teoria dell'informazione e meccanica statistica, ho incontrato questa cosa chiamata "misura dell'incertezza" / "entropia". Ho letto la derivazione di Khinchin come una misura di incertezza e ha senso per me. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.