Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Nell'apprendimento automatico, le persone parlano di funzione oggettiva, funzione di costo, funzione di perdita. Sono solo nomi diversi della stessa cosa? Quando usarli? Se non si riferiscono sempre alla stessa cosa, quali sono le differenze?
Sono interessato a trovare un metodo il più ottimale possibile per determinare quanti contenitori dovrei usare in un istogramma. I miei dati dovrebbero variare al massimo da 30 a 350 oggetti, e in particolare sto cercando di applicare il limite (come il metodo di Otsu) in cui gli oggetti "buoni", …
Devo determinare la divergenza KL tra due gaussiani. Sto confrontando i miei risultati con questi , ma non riesco a riprodurli. Il mio risultato è ovviamente sbagliato, perché KL non è 0 per KL (p, p). Mi chiedo dove sto facendo un errore e chiedo se qualcuno può individuarlo. Sia …
Poiché le elezioni sono un evento unico, non è un esperimento che può essere ripetuto. Quindi, cosa significa tecnicamente esattamente l'affermazione "Hillary ha il 75% di possibilità di vincere" ? Sto cercando una definizione statisticamente corretta non intuitiva o concettuale. Sono un fan delle statistiche amatoriali che sta cercando di …
Sto leggendo Il libro del perché di Judea Pearl, e mi sta prendendo in giro 1 . In particolare, mi sembra che stia incondizionatamente basando le statistiche "classiche" sollevando un argomento da pagliaccia secondo cui le statistiche non sono mai, mai in grado di indagare sulle relazioni causali, che non …
Il sito Web di intelligenza artificiale definisce l'apprendimento off-policy e on-policy come segue: "Uno studente fuori dalla politica impara il valore della politica ottimale indipendentemente dalle azioni dell'agente. Q-learning è uno studente fuori dalla politica. Uno studente nella politica apprende il valore della politica eseguita dall'agente, compresi i passaggi di …
Come faresti a sapere se i tuoi dati (ad alta dimensione) mostrano un clustering sufficiente in modo che i risultati provenienti da kmean o altri algoritmi di clustering siano effettivamente significativi? Per l'algoritmo k-mean in particolare, quanto dovrebbe essere significativa una riduzione della varianza all'interno del cluster affinché i risultati …
Sono interessato a calcolare manualmente l'area sotto la curva (AUC), o statistica c, per un modello di regressione logistica binaria. Ad esempio, nel set di dati di convalida, ho il valore reale per la variabile dipendente, retention (1 = mantenuto; 0 = non mantenuto), nonché uno stato di conservazione previsto …
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
Mi chiedo quale sia il valore nel prendere una variabile predittiva continua e scomporla (ad es. In quintili), prima di usarla in un modello. Mi sembra che, binning della variabile, perdiamo informazioni. È solo per poter modellare effetti non lineari? Se mantenessimo la variabile continua e in realtà non fosse …
La mia comprensione è che non può essere negativo in quanto è il quadrato di R. Tuttavia ho eseguito una semplice regressione lineare in SPSS con una singola variabile indipendente e una variabile dipendente. Il mio output SPSS mi dà un valore negativo per . Se dovessi calcolare questo a …
Ho un'applicazione in cui sarebbe utile raggruppare un set di dati rumorosi prima di cercare effetti di sottogruppo all'interno dei cluster. Ho esaminato PCA per la prima volta, ma sono necessari circa 30 componenti per arrivare al 90% della variabilità, quindi il clustering su un paio di PC genererà molte …
Ho una variabile nominale (diversi argomenti di conversazione, codificata come topic0 = 0 ecc.) E un numero di variabili di scala (DV) come la durata di una conversazione. Come posso derivare correlazioni tra le variabili nominali e di scala?
Sto usando R per fare il clustering di K-significa. Sto usando 14 variabili per eseguire K-medie Qual è un modo carino per tracciare i risultati di K-mean? Ci sono implementazioni esistenti? Avere 14 variabili complica la rappresentazione dei risultati? Ho trovato qualcosa chiamato GGcluster che sembra bello ma è ancora …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.