Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Sono un ingegnere informatico che impara l'apprendimento automatico, in particolare attraverso i corsi di apprendimento automatico di Andrew Ng . Mentre studiavo la regressione lineare con la regolarizzazione , ho trovato termini che confondono: Regressione con regolarizzazione L1 o regolarizzazione L2 LASSO Regressione della cresta Quindi le mie domande: La …
Sto cercando una spiegazione di come viene calcolata l'importanza della variabile relativa negli alberi potenziati a gradiente che non è eccessivamente generale / semplicistica come: Le misure si basano sul numero di volte in cui una variabile viene selezionata per la divisione, ponderata dal miglioramento quadrato del modello come risultato …
La regolarizzazione di Tikhonov e la regressione della cresta sono termini spesso usati come se fossero identici. È possibile specificare esattamente qual è la differenza?
Ho letto in alcune fonti, tra cui questa , che le foreste casuali non sono sensibili ai valori anomali (come lo sono la regressione logistica e altri metodi ML). Tuttavia, due pezzi di intuizione mi dicono diversamente: Ogni volta che viene costruito un albero decisionale, tutti i punti devono essere …
Comprendo che gli HMM (Hidden Markov Models) sono modelli generativi e CRF sono modelli discriminatori. Comprendo anche come vengono progettati e utilizzati i CRF (Conditional Random Fields). Quello che non capisco è come sono diversi dagli HMM? Ho letto che nel caso di HMM, possiamo solo modellare il nostro stato …
Come si confrontano i metodi di regolarizzazione di ridge, LASSO ed elasticnet? Quali sono i loro rispettivi vantaggi e svantaggi? Sarebbe anche apprezzato qualsiasi buon documento tecnico o appunti di lezione.
Sto cercando di capire l'origine della forma curva delle bande di confidenza associate a una regressione lineare OLS e come si relaziona agli intervalli di confidenza dei parametri di regressione (pendenza e intercetta), ad esempio (usando R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Sembra che la banda sia correlata …
So che questo è un argomento piuttosto caldo in cui nessuno può davvero dare una risposta semplice. Tuttavia mi chiedo se il seguente approccio non possa essere utile. Il metodo bootstrap è utile solo se il tuo campione segue più o meno (leggi esattamente) la stessa distribuzione della popolazione originale. …
Ho un set di dati X che ha 10 dimensioni, 4 delle quali sono valori discreti. In effetti, quelle 4 variabili discrete sono ordinali, ovvero un valore più alto implica un semantico più alto / migliore. 2 di queste variabili discrete sono categoriche nel senso che per ciascuna di queste …
Andrew More definisce il guadagno di informazioni come: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) dove è l' entropia condizionale . Tuttavia, Wikipedia chiama le informazioni reciproche sulla quantità di cui sopra .H(Y|X)H(Y|X)H(Y|X) Wikipedia, d'altra parte, definisce il guadagno di informazioni come la divergenza di Kullback-Leibler (nota anche come divergenza di informazioni …
E allora? In caso contrario, perché no? Per un campione sulla linea, la mediana minimizza la deviazione assoluta totale. Sembrerebbe naturale estendere la definizione a R2, ecc., Ma non l'ho mai vista. Ma poi, sono stato fuori nel campo sinistro per molto tempo.
Mio padre è un appassionato di matematica, ma non è molto interessato alle statistiche. Sarebbe bello provare a illustrare alcuni dei meravigliosi frammenti di statistiche e il CLT è un candidato privilegiato. Come trasmetteresti la bellezza matematica e l'impatto del teorema del limite centrale a un non statistico?
Nel corso Neural Networks e Deep Learning di Andrew Ng su Coursera afferma che usare è quasi sempre preferibile usare .tanhtanhtanhsigmoidsigmoidsigmoid La ragione per cui egli dà è che le uscite utilizzando centro attorno 0 piuttosto che 's 0,5, e questo 'rende l'apprendimento per lo strato successivo un po 'più …
Capisco qual è la distribuzione predittiva posteriore e ho letto dei controlli predittivi posteriori , anche se non mi è ancora chiaro cosa faccia. Che cos'è esattamente il controllo predittivo posteriore? Perché alcuni autori affermano che eseguire controlli predittivi posteriori sta "utilizzando i dati due volte" e non dovrebbero essere …
Qualcuno può raccomandare una buona esposizione della teoria alla base della regressione dei minimi quadrati parziali (disponibile online) per qualcuno che capisce SVD e PCA? Ho esaminato molte fonti online e non ho trovato nulla che avesse la giusta combinazione di rigore e accessibilità. Ho esaminato The Elements of Statistical …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.