Statistiche e Big Data

5

Perché il pregiudizio è influenzato quando una sperimentazione clinica è terminata in una fase precoce?

Un'analisi intermedia è un'analisi dei dati in uno o più punti temporali prima della chiusura ufficiale dello studio con l'intenzione, ad esempio, di terminare lo studio in anticipo. Secondo Piantadosi, S. ( Studi clinici - una prospettiva metodologica ): " La stima di un effetto del trattamento sarà distorta quando …

24 clinical-trials bias

3

Equazioni nelle notizie: tradurre un modello multilivello in un pubblico generale

Il New York Times ha commentato a lungo il sistema di valutazione degli insegnanti "a valore aggiunto" utilizzato per fornire feedback agli educatori di New York City. Il lede è l'equazione usata per calcolare i punteggi - presentati senza contesto. La strategia retorica sembra essere l'intimidazione tramite la matematica: Il …

24 regression multilevel-analysis statistics-in-media

3

L'ordine delle variabili esplicative è importante per il calcolo dei coefficienti di regressione?

All'inizio pensavo che l'ordine non avesse importanza, ma poi ho letto del processo di ortogonalizzazione di gram-schmidt per il calcolo di coefficienti di regressione multipli, e ora sto ripensandoci. Secondo il processo gram-schmidt, più tardi una variabile esplicativa viene indicizzata tra le altre variabili, più piccolo è il suo vettore …

24 regression multiple-regression regression-coefficients

7

Algoritmo per il monitoraggio dinamico dei quantili

Voglio stimare il quantile di alcuni dati. I dati sono così enormi che non possono essere inseriti nella memoria. E i dati non sono statici, i nuovi dati continuano ad arrivare. Qualcuno conosce qualche algoritmo per monitorare i quantili dei dati osservati finora con memoria e calcolo molto limitati? Trovo …

24 algorithms quantiles

4

Correzione dei valori p per più test in cui i test sono correlati (genetica)

Ho valori di p da molti test e vorrei sapere se in realtà c'è qualcosa di significativo dopo aver corretto per più test. La complicazione: i miei test non sono indipendenti. Il metodo a cui sto pensando (una variante del metodo del prodotto di Fisher, Zaykin et al., Genet Epidemiol …

24 correlation multiple-comparisons statistical-significance genetics

13

Libri di testo di econometria?

Quali buoni libri di testo di econometria consiglieresti? Modifica: ci sono alcuni libri là fuori, con vari livelli di raffinatezza matematica. Sarebbe bello avere un'idea di quanto sia tecnico il libro che stai raccomandando.

24 econometrics references

3

L'ora del giorno è una variabile categoriale?

"L'ora del giorno" in cui il valore può essere 0, 1, 2, ..., 23 è una variabile categoriale? Sarei tentato di dire di no, dal momento che 5, ad esempio, è "più vicino" a 4 o 6 che a 3 o 7. D'altra parte, c'è una discontinuità tra 23 e …

24 categorical-data circular-statistics

2

Perché la correzione della continuità (diciamo l'approssimazione normale alla distribuzione binomiale) funziona?

Vorrei capire meglio come è stata derivata la correzione di continuità alla distribuzione binomiale per l'approssimazione normale. Quale metodo è stato usato per decidere che dovremmo aggiungere 1/2 (perché non un altro numero?). Qualsiasi spiegazione (o un collegamento alla lettura suggerita, diversa da questa , sarebbe apprezzata).

24 binomial asymptotics

2

In che modo la CNN "12" di Krizhevsky ottiene 253.440 neuroni nel primo strato?

In Alex Krizhevsky, et al. La classificazione di Imagenet con reti neurali profonde convoluzionali enumera il numero di neuroni in ogni strato (vedi diagramma sotto). L'input della rete è di 150.528 dimensioni e il numero di neuroni negli strati rimanenti della rete è dato da 253.440–186.624–64.896–64.896–43.264– 4096–4096–1000. Una vista 3D …

24 neural-networks deep-learning conv-neural-network

1

Come calcolare l'intervallo di previsione per una regressione multipla OLS?

Qual è la notazione algebrica per calcolare l'intervallo di predizione per la regressione multipla? Sembra sciocco, ma ho difficoltà a trovare una chiara notazione algebrica di questo.

24 multiple-regression least-squares prediction-interval

2

Come capire "non lineare" come in "riduzione della dimensionalità non lineare"?

Sto cercando di comprendere le differenze tra i metodi di riduzione della dimensionalità lineare (ad es. PCA) e quelli non lineari (ad es. Isomap). Non riesco proprio a capire cosa implica la (non) linearità in questo contesto. Ho letto da Wikipedia che In confronto, se PCA (un algoritmo di riduzione …

24 pca terminology dimensionality-reduction pattern-recognition manifold-learning

4

Simula una distribuzione uniforme su un disco

Stavo tentando di simulare l'iniezione di punti casuali all'interno di un cerchio, in modo tale che qualsiasi parte del cerchio abbia la stessa probabilità di avere un difetto. Mi aspettavo che il conteggio per area della distribuzione risultante seguisse una distribuzione di Poisson se suddividessi il cerchio in rettangoli di …

24 random-generation circular-statistics

3

Come posso interpretare la matrice di confusione di Sklearn

Sto usando la matrice di confusione per verificare le prestazioni del mio classificatore. Sto usando Scikit-Learn, sono un po 'confuso. Come posso interpretare il risultato da from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, …

24 predictive-models prediction confusion-matrix

7

come rappresentare la geografia o il codice postale nel modello di apprendimento automatico o nel sistema di raccomandazione?

Sto costruendo un modello e penso che la posizione geografica probabilmente sarà molto brava a prevedere la mia variabile target. Ho il codice postale di ciascuno dei miei utenti. Non sono del tutto sicuro del modo migliore per includere il codice postale come funzione predittiva nel mio modello. Sebbene il …

24 machine-learning feature-construction many-categories

3

In che modo il PCA sparso è meglio del PCA?

Ho appreso della PCA alcune lezioni fa in classe e approfondendo questo affascinante concetto, ho imparato a conoscere la PCA sparsa. Volevo chiederti, se non sbaglio, questo è ciò che è un PCA scarso: in PCA, se hai punti di dati con variabili , puoi rappresentare ogni punto di dati …

24 machine-learning pca sparse