Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Di Student -test richiede l'deviazione standard campionaria . Tuttavia, come si calcola per quando si conoscono solo la dimensione del campione e la media del campione?tttSSsSSs Ad esempio, se la dimensione del campione è e la media del campione è , tenterò quindi di creare un elenco di campioni identici …
Ho letto tre motivi principali per standardizzare le variabili prima di qualcosa come la Lassoregressione: 1) Interpretazione dei coefficienti. 2) Capacità di classificare l'importanza del coefficiente in base all'entità relativa delle stime del coefficiente post-restringimento. 3) Non è necessario intercettare. Ma mi chiedo il punto più importante. Abbiamo motivo di …
È possibile equipaggiare troppo un modello di regressione logistica? Ho visto un video in cui si diceva che se la mia area sotto la curva ROC è superiore al 95%, è molto probabile che venga adattata in modo eccessivo, ma è possibile utilizzare un modello di regressione logistica?
Questo è in qualche modo correlato alla mia domanda precedente qui: un esempio in cui il principio di probabilità * davvero * conta? Apparentemente, Deborah Mayo ha pubblicato un articolo su Statistical Science confutando la prova di Birnbaum del principio di probabilità. Qualcuno può spiegare l'argomento principale di Birnbaum e …
Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
La carta elastica originale Zou & Hastie (2005) La regolarizzazione e la selezione delle variabili tramite la rete elastica hanno introdotto la funzione di perdita netta elastica per la regressione lineare (qui presumo che tutte le variabili siano centrate e ridimensionate in base alla varianza unitaria): ma l'ha definita "rete …
Quando introduco concetti ai miei studenti, trovo spesso divertente dire loro dove ha origine la terminologia ("regressione", ad esempio, è un termine con un'origine interessante). Non sono stato in grado di evidenziare la storia / il background del termine "regolarizzazione" in apprendimento statistico / automatico. Quindi, qual è l'origine del …
Sappiamo che alcune funzioni oggettive sono più facili da ottimizzare e altre difficili. E ci sono molte funzioni di perdita che vogliamo usare ma difficili da usare, ad esempio la perdita 0-1. Quindi troviamo alcune funzioni di perdita proxy per fare il lavoro. Ad esempio, usiamo la perdita della cerniera …
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso l'anno scorso . Sui prodotti del tabacco si può spesso vedere la statistica che nove tumori polmonari su dieci sono causati …
Identico significato, che produrrà risultati identici per una somiglianza Classifica tra un vettore u e un insieme di vettori V . Ho un modello di spazio vettoriale che ha come parametro la misura della distanza (distanza euclidea, somiglianza del coseno) e la tecnica di normalizzazione (nessuna, l1, l2). Da quanto …
Un animale domestico che dice molti statistici è "La correlazione non implica la causalità". Questo è certamente vero, ma una cosa che sembra implicita qui è che la correlazione ha poco o nessun valore. È vero? È inutile sapere che due variabili sono correlate? Non riesco a immaginare che sia …
Ho osservato che, in media, il valore assoluto del coefficiente di correlazione di Pearson è una costante vicina a qualsiasi coppia di camminate casuali indipendenti, indipendentemente dalla lunghezza della camminata.0.560.42 Qualcuno può spiegare questo fenomeno? Mi aspettavo che le correlazioni diminuissero con l'aumentare della lunghezza della camminata, come con qualsiasi …
Per i modelli statistici e di apprendimento automatico, esistono diversi livelli di interpretabilità: 1) l'algoritmo nel suo insieme, 2) parti dell'algoritmo in generale 3) parti dell'algoritmo su input particolari e questi tre livelli si dividono in due parti ciascuno, uno per l'allenamento e uno per la valutazione delle funzioni. Le …
Ho una matrice di numeri in virgola mobile 336x256 (336 genomi batterici (colonne) x 256 frequenze di tetranucleotidi normalizzate (righe), ad esempio ogni colonna aggiunge fino a 1). Ottengo buoni risultati quando eseguo la mia analisi utilizzando l'analisi dei componenti principali. Per prima cosa, calcolo i cluster di kmean sui …
Questa è la mia prima domanda su Cross Validated qui, quindi per favore aiutatemi anche se sembra banale :-) Innanzitutto, la domanda potrebbe essere il risultato di differenze linguistiche o forse io ho delle vere carenze nelle statistiche. Tuttavia, eccolo qui: Nelle statistiche sulla popolazione, variazione e varianza sono gli …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.