Statistiche e Big Data regression

1

In che modo ggplot calcola gli intervalli di confidenza per le regressioni?

Il pacchetto di stampa R ggplot2 ha una fantastica funzione chiamata stat_smooth per tracciare una linea (o curva) di regressione con la banda di confidenza associata. Tuttavia, faccio fatica a capire esattamente come viene generata questa banda di confidenza, per ogni volta della linea di regressione (o "metodo"). Come posso …

15 r regression confidence-interval ggplot2

7

La foresta casuale è troppo adatta

Sto cercando di usare la regressione casuale della foresta in scikits-learn. Il problema è che sto ricevendo un errore di test molto elevato: train MSE, 4.64, test MSE: 252.25. Ecco come appaiono i miei dati: (blu: dati reali, verde: previsto): Sto usando il 90% per l'allenamento e il 10% per …

15 regression random-forest scikit-learn

1

Regressione degli errori nelle variabili: è valido unire i dati di tre siti?

Recentemente ho avuto un cliente da me per fare un'analisi bootstrap perché un revisore della FDA ha affermato che la loro regressione errori-in-variabili non era valida perché quando si univano i dati dei siti l'analisi includeva il pooling dei dati di tre siti in cui due siti includevano alcuni esempi …

15 regression errors-in-variables deming-regression pooling

3

Procedura automatizzata per la selezione di un sottoinsieme di punti dati con la più forte correlazione?

Esiste una procedura standard (tale da poterla citare come riferimento) per selezionare il sottoinsieme di punti dati da un pool più grande con la correlazione più forte (lungo solo due dimensioni)? Ad esempio, supponiamo di avere 100 punti dati. Si desidera un sottoinsieme di 40 punti con la correlazione più …

15 regression correlation autocorrelation

2

Come scegliere tra le diverse formule rettificate ?

Ho in mente le formule rettificate R-quadrato proposte da: Ezekiel (1930), che credo sia quello attualmente utilizzato in SPSS. R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) Olkin and Pratt (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} In quali circostanze (se ce ne sono) dovrei preferire "aggiustato" a "imparziale" …

15 regression r-squared

2

Come scegliere il livello di significatività per un set di dati di grandi dimensioni?

Sto lavorando con un set di dati con N circa 200.000. Nelle regressioni, vedo valori di significatività molto piccoli << 0,001 associati a dimensioni di effetto molto piccole, ad es. R = 0,028. Quello che mi piacerebbe sapere è che esiste un modo di principio per decidere una soglia di …

15 regression probability statistical-significance sample-size

5

Quale potrebbe essere la ragione per usare la trasformazione della radice quadrata sui dati?

C'è qualche motivo di ciò a cui riesco a pensare, per trasformare i dati con una radice quadrata? Voglio dire che osservo sempre che R ^ 2 aumenta. Ma questo è probabilmente solo per aver centrato i dati! Ogni pensiero è apprezzato!

15 regression data-transformation variance-stabilizing

4

Intervalli di confidenza per i parametri di regressione: bayesiano vs. classico

Dati due array xey, entrambi di lunghezza n, ho un modello y = a + b * x e voglio calcolare un intervallo di confidenza del 95% per la pendenza. Questo è (b - delta, b + delta) dove b si trova nel solito modo e delta = qt(0.975,df=n-2)*se.slope e …

15 r regression bayesian confidence-interval frequentist

5

Come modellare i prezzi?

Ho posto questa domanda sul sito di matemexics stackexchange e mi è stato consigliato di fare qui. Sto lavorando a un progetto di hobby e avrei bisogno di aiuto per il seguente problema. Un po 'di contesto Diciamo che esiste una raccolta di articoli con una descrizione delle caratteristiche e …

15 regression forecasting econometrics

5

È possibile utilizzare la regressione multipla per prevedere un componente principale (PC) da diversi altri PC?

Qualche tempo fa un utente nella mailing list di R-help ha chiesto in merito alla validità dell'utilizzo dei punteggi PCA in una regressione. L'utente sta cercando di utilizzare alcuni punteggi del PC per spiegare la variazione in un altro PC (vedere la discussione completa qui ). La risposta è stata …

15 regression pca

5

Perché la normalità presuppone una regressione lineare

La mia domanda è molto semplice: perché scegliamo normale come distribuzione seguita dal termine di errore nell'ipotesi di regressione lineare? Perché non scegliamo altri come l'uniforme, te altro?

15 regression mathematical-statistics normal-distribution error linear

5

Qual è la necessità di ipotesi nella regressione lineare?

Nella regressione lineare, facciamo le seguenti ipotesi La media della risposta, E(Yi)E(Yi)E(Y_i) , in ciascun set di valori dei predittori, (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) , è una funzione lineare dei predittori. Gli errori,εiεiε_i , sono indipendenti. Gli errori, , in ciascun set di valori dei predittori, , sono normalmente distribuiti.εiεiε_i(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) Gli …

15 regression assumptions

4

La prova di formule equivalenti di regressione della cresta

Ho letto i libri più popolari nell'apprendimento statistico 1- Gli elementi dell'apprendimento statistico. 2- Un'introduzione all'apprendimento statistico . Entrambi menzionano che la regressione della cresta ha due formule equivalenti. Esiste una comprensibile prova matematica di questo risultato? Ho anche esaminato Cross Validated , ma non riesco a trovare una prova …

15 regression lasso regularization ridge-regression lagrange-multipliers

2

Reti neurali vs tutto il resto

Non ho trovato una risposta soddisfacente a questo da Google . Naturalmente se i dati che ho sono dell'ordine di milioni, l'apprendimento profondo è la strada. E ho letto che quando non ho i big data allora forse è meglio usare altri metodi nell'apprendimento automatico. Il motivo indicato è eccessivo. …

15 regression machine-learning classification neural-networks deep-learning

1

Confronto tra Newey-West (1987) e Hansen-Hodrick (1980)

Domanda: Quali sono le principali differenze e somiglianze tra l'uso degli errori standard di Newey-West (1987) e Hansen-Hodrick (1980)? In quali situazioni dovrebbe essere preferito uno di questi rispetto all'altro? Appunti: So come funziona ciascuna di queste procedure di regolazione; tuttavia, non ho ancora trovato alcun documento che li possa …

15 regression autocorrelation heteroscedasticity robust-standard-error neweywest

Domande taggate «regression»