Statistiche e Big Data

2

Interpretazione dei grafici dei valori residui e di quelli adattati per la verifica delle ipotesi di un modello lineare

Considera la figura seguente dei Modelli lineari di Faraway con R (2005, p. 59). Il primo diagramma sembra indicare che i valori residui e adattati non sono correlati, come dovrebbero essere in un modello lineare omoscedastico con errori normalmente distribuiti. Pertanto, il secondo e il terzo diagramma, che sembrano indicare …

34 regression residuals assumptions graphical-model

2

Modello di effetti misti con annidamento

Ho i dati raccolti da un esperimento organizzato come segue: Due siti, ciascuno con 30 alberi. 15 sono trattati, 15 controllano ogni sito. Da ogni albero, campioniamo tre pezzi dello stelo e tre pezzi delle radici, quindi 6 campioni di livello 1 per albero che è rappresentato da uno dei …

34 r mixed-model model nested-data lme4-nlme

3

R - Confuso sulla terminologia residua

Errore quadratico medio radice somma residua di quadrati errore standard residuo errore quadratico medio errore di prova Pensavo di capire questi termini, ma più faccio problemi statistici, più mi sono confuso dove secondo me stesso. Vorrei una rassicurazione e un esempio concreto Riesco a trovare le equazioni abbastanza facilmente online, …

34 r regression residuals

3

Normalità della variabile dipendente = normalità dei residui?

Questo problema sembra sollevare continuamente la sua brutta testa e sto cercando di decapitarlo per la mia comprensione delle statistiche (e della sanità mentale!). Le assunzioni dei modelli lineari generali (t-test, ANOVA, regressione ecc.) Includono l '"assunzione della normalità", ma ho scoperto che raramente viene descritto chiaramente. Mi capita spesso …

34 normal-distribution residuals normality-assumption

5

La distribuzione beta ha un coniugato precedente?

So che la distribuzione beta è coniugata al binomio. Ma qual è il coniugato precedente della beta? Grazie.

34 beta-distribution conjugate-prior

2

Quali sono le differenze pratiche tra la Benjamini e la Hochberg (1995) e la Benjamini e la Yekutieli (2001) procedure di falsa scoperta?

Il mio programma statistico implementa sia le procedure del tasso di falsa scoperta (FDR) Benjamini & Hochberg (1995) sia Benjamini & Yekutieli (2001). Ho fatto del mio meglio per leggere l'articolo successivo, ma è abbastanza matematicamente denso e non sono ragionevolmente certo di capire la differenza tra le procedure. Dal …

34 post-hoc false-discovery-rate

3

Corrispondenza del punteggio di propensione dopo imputazione multipla

Mi riferisco a questo documento: Hayes JR, Groner JI. "Utilizzo di punteggi multipli di imputazione e propensione per testare l'effetto dei seggiolini auto e dell'utilizzo delle cinture di sicurezza sulla gravità delle lesioni dai dati del registro dei traumi." J Pediatr Surg. Maggio 2008; 43 (5): 924-7. In questo studio, …

34 missing-data propensity-scores

2

Selezione del modello e convalida incrociata: la strada giusta

Esistono numerosi thread in CrossValidated sull'argomento di selezione del modello e convalida incrociata. Eccone alcuni: Convalida incrociata interna vs esterna e selezione del modello La risposta principale di DikranMarsupial alla selezione e alla convalida incrociata delle funzioni Tuttavia, le risposte a questi thread sono abbastanza generiche e evidenziano principalmente i …

34 cross-validation model-selection

3

Come posso verificare se un effetto casuale è significativo?

Sto cercando di capire quando usare un effetto casuale e quando non è necessario. Mi è stato detto che una regola empirica è se hai 4 o più gruppi / individui che faccio (15 alci individuali). Alcuni di questi alci sono stati sperimentati 2 o 3 volte per un totale …

34 mixed-model lme4-nlme random-effects-model glmm

5

Backpropagation vs Algoritmo genetico per la formazione della rete neurale

Ho letto alcuni articoli che parlano dei pro e dei contro di ciascun metodo, alcuni sostengono che GA non dia alcun miglioramento nel trovare la soluzione ottimale, mentre altri dimostrano che è più efficace. Sembra che GA sia generalmente preferito in letteratura (anche se la maggior parte delle persone lo …

34 neural-networks genetic-algorithms backpropagation

3

Perché la matrice di correlazione deve essere semi-definita positiva e cosa significa essere o meno semi-definita positiva?

Ho studiato il significato della proprietà semi-definita positiva delle matrici di correlazione o covarianza. Sto cercando informazioni su Definizione di semi-definitività positiva; Le sue proprietà importanti, implicazioni pratiche; La conseguenza di avere determinante negativo, impatto sull'analisi multivariata o risultati della simulazione ecc.

34 covariance-matrix eigenvalues determinant correlation-matrix

3

Differenza tra modelli lineari generalizzati e modelli misti lineari generalizzati

Mi chiedo quali siano le differenze tra GLM misti e non miscelati. Ad esempio, in SPSS il menu a discesa consente agli utenti di adattare: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Trattano diversamente i valori mancanti? La mia variabile dipendente è binaria e …

34 mixed-model generalized-linear-model glmm gee

2

Clustering gerarchico con dati di tipo misto: quale distanza / somiglianza usare?

Nel mio set di dati abbiamo variabili sia continue che naturalmente discrete. Voglio sapere se possiamo fare un cluster gerarchico usando entrambi i tipi di variabili. E se sì, quale misura di distanza è appropriata?

34 clustering similarities distance-functions mixed-type-data

5

Puoi esagerare con l'addestramento degli algoritmi di machine learning usando CV / Bootstrap?

Questa domanda potrebbe essere troppo aperta per ottenere una risposta definitiva, ma speriamo di no. Gli algoritmi di apprendimento automatico, come SVM, GBM, Random Forest ecc., Generalmente hanno alcuni parametri gratuiti che, al di là di una guida empirica, devono essere adattati a ciascun set di dati. Questo viene generalmente …

34 machine-learning cross-validation bootstrap optimization resampling

7

Perché è male insegnare agli studenti che i valori p sono la probabilità che i risultati siano dovuti al caso?

Qualcuno può offrire una spiegazione breve e concisa sul perché non è una buona idea insegnare agli studenti che un valore p è il prob (i loro risultati sono dovuti al caso [casuale]). La mia comprensione è che un valore p è il prob (ottenere dati più estremi | l'ipotesi …

34 p-value randomness teaching