Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Sto cercando di usare la trama silhouette per determinare il numero di cluster nel mio set di dati. Dato il set di dati Train , ho usato il seguente codice matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ …
X e Y non sono correlati (-.01); tuttavia, quando inserisco X in una regressione multipla che prevede Y, accanto a tre (A, B, C) altre variabili (correlate), X e altre due variabili (A, B) sono predittori significativi di Y. Nota che le altre due ( Le variabili A, B) sono …
Sembrano tutti rappresentare variabili casuali dai nodi e (in) dipendenza attraverso i bordi (possibilmente diretti). Sono particolarmente interessato al punto di vista di un bayesiano.
Ho una serie di dati che non sono ordinati in alcun modo particolare, ma quando tracciati hanno chiaramente due tendenze distinte. Una semplice regressione lineare non sarebbe davvero adeguata qui a causa della chiara distinzione tra le due serie. Esiste un modo semplice per ottenere le due linee di tendenza …
In un recente incarico, ci è stato detto di utilizzare PCA sulle cifre MNIST per ridurre le dimensioni da 64 (8 x 8 immagini) a 2. Abbiamo quindi dovuto raggruppare le cifre utilizzando un modello di miscela gaussiana. La PCA che utilizza solo 2 componenti principali non produce cluster distinti …
Ho delle difficoltà a capire come interpretare l'output di importanza variabile dal pacchetto Random Forest. La riduzione media dell'accuratezza è generalmente descritta come "la riduzione dell'accuratezza del modello dal permutare i valori in ciascuna caratteristica". È un'affermazione sulla funzionalità nel suo insieme o su valori specifici all'interno della funzione? In …
Posso chiamare un modello in cui il teorema di Bayes viene utilizzato come "modello bayesiano"? Temo che una tale definizione potrebbe essere troppo ampia. Quindi cos'è esattamente un modello bayesiano?
Perché la statistica test di un test del rapporto di verosimiglianza è distribuita chi-quadrato? 2(ln Lalt model−ln Lnull model)∼χ2dfalt−dfnull2(ln Lalt model−ln Lnull model)∼χdfalt−dfnull22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}
Inizierò dicendo che questo è un problema di compiti appena uscito dal libro. Ho trascorso un paio d'ore a cercare come trovare i valori previsti e ho deciso di non capire nulla. Lascia che abbia il CDF . Trova per quei valori di per cui esiste .XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - …
Sono curioso di sapere procedure ripetibili che possono essere utilizzati per scoprire la forma funzionale della funzione y = f(A, B, C) + error_termin cui il mio unico input è un insieme di osservazioni ( y, A, Be C). Si noti che la forma funzionale di fè sconosciuta. Considera il …
Carissimi, ho notato qualcosa di strano che non posso spiegare, vero? In sintesi: l'approccio manuale al calcolo di un intervallo di confidenza in un modello di regressione logistica e la funzione R confint()danno risultati diversi. Ho attraversato la regressione logistica applicata di Hosmer & Lemeshow (2a edizione). Nel terzo capitolo …
Gli alberi delle decisioni sembrano essere un metodo di apprendimento automatico molto comprensibile. Una volta creato, può essere facilmente ispezionato da un essere umano, il che è un grande vantaggio in alcune applicazioni. Quali sono i lati pratici deboli degli alberi decisionali?
Qualcuno può dirmi cosa si intende con la frase "studente debole"? Dovrebbe essere un'ipotesi debole? Sono confuso sulla relazione tra uno studente debole e un classificatore debole. Sono entrambi uguali o c'è qualche differenza? Nell'algoritmo AdaBoost, T=10. Cosa si intende con questo? Perché selezioniamo T=10?
Seguo le competizioni di Kaggle da molto tempo e mi rendo conto che molte strategie vincenti prevedono l'utilizzo di almeno uno dei "tre grandi": insaccamento, potenziamento e accatastamento. Per le regressioni, piuttosto che concentrarsi sulla costruzione di un modello di regressione migliore possibile, la costruzione di più modelli di regressione …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.