Statistiche e Big Data

4

Perché il RANSAC non è più utilizzato nelle statistiche?

Provenendo dal campo della visione artificiale, ho spesso usato il metodo RANSAC (Random Sample Consensus) per adattare i modelli ai dati con molti valori anomali. Tuttavia, non l'ho mai visto usato dagli statistici e ho sempre avuto l'impressione che non fosse considerato un metodo "statisticamente valido". Perchè è così? È …

26 outliers bootstrap robust

1

Come si può dimostrare empiricamente in R a quali metodi di convalida incrociata sono equivalenti AIC e BIC?

In una domanda altrove su questo sito, diverse risposte hanno indicato che l'AIC equivale alla validazione incrociata con esclusione (LOO) e che il BIC è equivalente alla convalida incrociata con K. C'è un modo per dimostrarlo empiricamente in R in modo tale che le tecniche coinvolte in LOO e K-fold …

26 r aic cross-validation bic

7

Test per la dipendenza lineare tra le colonne di una matrice

Ho una matrice di correlazione dei ritorni di sicurezza il cui determinante è zero. (Questo è un po 'sorprendente poiché la matrice di correlazione del campione e la matrice di covarianza corrispondente dovrebbero teoricamente essere definite positive.) La mia ipotesi è che almeno un titolo dipenda linearmente da altri titoli. …

26 r correlation pca linear-model svd

7

Come faccio a decidere quale intervallo utilizzare nella regressione LOESS in R?

Sto eseguendo modelli di regressione LOESS in R e desidero confrontare le uscite di 12 modelli diversi con dimensioni del campione variabili. Posso descrivere i modelli attuali in modo più dettagliato se aiuta a rispondere alla domanda. Ecco le dimensioni del campione: Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH …

26 r regression loess

5

Quando ha senso l'approccio "go get more data" di Fisher?

Citando la grande risposta di Gung Presumibilmente, un ricercatore una volta si è avvicinato a Fisher con risultati "non significativi", chiedendogli cosa avrebbe dovuto fare, e Fisher ha detto, "vai a prendere più dati". Dal punto di vista di Neyman-Pearson, si tratta di una palese ppp -hacking, ma c'è un …

26 hypothesis-testing p-value intuition philosophical

2

Aiutami a capire la funzione quantile (CDF inversa)

Sto leggendo della funzione quantile, ma non mi è chiaro. Potresti fornire una spiegazione più intuitiva di quella fornita di seguito? Poiché il cdf è una funzione monotonicamente crescente, ha un inverso; denotiamo questo con . Se è il cdf di , allora è il valore di tale che ; …

26 distributions cdf inverse-cdf quantile-function

2

Rete neurale: per la classificazione binaria utilizzare 1 o 2 neuroni in uscita?

Supponiamo di voler fare una classificazione binaria (qualcosa appartiene alla classe A o alla classe B). Esistono alcune possibilità per farlo nel livello di output di una rete neurale: Usa 1 nodo di output. L'uscita 0 (<0,5) è considerata in classe A e 1 (> = 0,5) è considerata in …

26 machine-learning classification neural-networks

1

La perdita di allenamento scende e sale di nuovo. Che cosa sta succedendo?

La mia perdita di allenamento diminuisce e poi aumenta di nuovo. È molto strano. La perdita di convalida incrociata tiene traccia della perdita di addestramento. Cosa sta succedendo? Ho due LSTMS in pila come segue (su Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) …

26 machine-learning neural-networks loss-functions lstm

3

I priori bayesiani diventano irrilevanti con campioni di grandi dimensioni?

Quando eseguiamo l'inferenza bayesiana, operiamo massimizzando la nostra funzione di probabilità in combinazione con i priori che abbiamo sui parametri. Poiché la verosimiglianza è più conveniente, massimizziamo efficacemente usando un MCMC o comunque che genera le distribuzioni posteriori (usando un pdf per ogni parametro precedente e la probabilità di ciascun …

26 bayesian prior

5

La voce di Wikipedia sulla probabilità sembra ambigua

Ho una semplice domanda per quanto riguarda "probabilità condizionale" e "probabilità". (Ho già esaminato questa domanda qui, ma inutilmente.) Si parte dalla pagina di Wikipedia sulla probabilità . Dicono questo: La probabilità di un insieme di valori di parametro, θθ\theta , dati gli esiti xxx , è uguale alla probabilità …

26 probability bayesian conditional-probability likelihood definition

3

trovare il valore p nella correlazione di Pearson in R

È possibile trovare il valore p nella correlazione di Pearson in R? Per trovare la correlazione di Pearson, di solito lo faccio col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 Ma come posso trovare il valore p di questo?

26 r correlation p-value pearson-r

5

In che modo la regressione lineare utilizza la distribuzione normale?

Nella regressione lineare, si presume che ciascun valore previsto sia stato scelto da una normale distribuzione di possibili valori. Vedi sotto. Ma perché si presume che ciascun valore previsto provenga da una distribuzione normale? In che modo la regressione lineare usa questo presupposto? Cosa succede se i valori possibili non …

26 regression probability distributions normal-distribution modeling

7

Combinazione di probabilità / informazioni da fonti diverse

Diciamo che ho tre fonti indipendenti e ognuna di esse fa previsioni per il tempo domani. Il primo dice che la probabilità di pioggia domani è 0, quindi il secondo dice che la probabilità è 1, e infine l'ultimo dice che la probabilità è del 50%. Vorrei sapere la probabilità …

26 probability bayesian pooling model-averaging forecast-combination

4

Perché qualcuno dovrebbe usare KNN per la regressione?

Da quello che ho capito, possiamo solo costruire una funzione di regressione che rientri nell'intervallo dei dati di allenamento. Ad esempio (è necessario solo uno dei pannelli): Come potrei prevedere in futuro usando un regressore KNN? Ancora una volta, sembra approssimare solo una funzione che rientra nell'intervallo dei dati di …

26 regression machine-learning k-nearest-neighbour

7

Semplici esempi di e non correlati ma non indipendenti

Ogni studente laborioso è un controesempio di "tutti gli studenti sono pigri". Quali sono alcuni semplici controesempi a "se le variabili casuali e non sono correlate allora sono indipendenti"?XXXYYY

26 correlation random-variable independence