Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Sto usando il pacchetto R penalizzato per ottenere stime ridotte dei coefficienti per un set di dati in cui ho molti predittori e poca conoscenza di quali sono importanti. Dopo aver scelto i parametri di ottimizzazione L1 e L2 e sono soddisfatto dei miei coefficienti, esiste un modo statisticamente corretto …
Diciamo che abbiamo due fattori (A e B), ciascuno con due livelli (A1, A2 e B1, B2) e una variabile di risposta (y). Quando si esegue un ANOVA a due vie del tipo: y~A+B+A*B Stiamo testando tre ipotesi nulle: Non vi è alcuna differenza nei mezzi del fattore A Non …
Questa domanda riguarda la stima dei punteggi di cut-off su un questionario di screening multidimensionale per prevedere un endpoint binario, in presenza di scale correlate. Mi è stato chiesto l'interesse del controllo per i punteggi secondari associati quando ho ideato i punteggi di cut-off su ogni dimensione di una scala …
Sto conducendo esperimenti per un documento e sto cercando un libro / sito web interessante per capire correttamente come funzionano ANOVA e ANCOVA. Ho una buona preparazione matematica quindi non ho necessariamente bisogno di una spiegazione volgare. Vorrei anche sapere come determinare quando utilizzare ANOVA anziché ANCOVA.
Nei miei tentativi di combattere il caos dei fogli di calcolo, sono spesso evangelico nel cercare strumenti più solidi come il vero software di statistica (R, Stata e simili). Di recente, sono stato sfidato da questo punto di vista da qualcuno che ha dichiarato chiaramente che semplicemente non impareranno a …
Oggi stavo leggendo il blog di Christian Robert e mi è piaciuto molto il nuovo algoritmo Metropolis-Hastings di cui stava discutendo. Sembrava semplice e facile da implementare. Ogni volta che codifico MCMC, tendo a rimanere con algoritmi MH molto basilari, come mosse indipendenti o passeggiate casuali sulla scala del registro. …
Il trucco del kernel viene utilizzato in diversi modelli di machine learning (ad es. SVM ). È stato introdotto per la prima volta nel documento "Fondamenti teorici del potenziale metodo di funzione nell'apprendimento del riconoscimento di schemi" nel 1964. La definizione di Wikipedia dice che lo è un metodo per …
La logica dell'imputazione multipla (MI) è quella di imputare i valori mancanti non una volta ma diverse (in genere M = 5) volte, risultando in M set di dati completati. I set di dati completati M vengono quindi analizzati con metodi di dati completi su cui le stime M e …
La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …
Una domanda che mi ha disturbato per qualche tempo, che non so come affrontare: Ogni giorno, il mio meteorologo offre una probabilità percentuale di pioggia (supponiamo che sia calcolato su 9000 cifre e non ha mai ripetuto un numero). Ogni giorno successivo piove o non piove. Ho anni di dati …
Ho sentito che quando molte specifiche del modello di regressione (diciamo, in OLS) sono considerate come possibilità per un set di dati, ciò causa molteplici problemi di confronto e i valori di p e gli intervalli di confidenza non sono più affidabili. Un esempio estremo di ciò è la regressione …
Non sono un esperto di foreste casuali ma capisco chiaramente che il problema chiave con la foresta casuale è la generazione di alberi (casuali). Puoi spiegarmi come vengono generati gli alberi? (ovvero qual è la distribuzione utilizzata per la generazione di alberi?) Grazie in anticipo !
Nel classico problema del Coupon Collector , è noto che il tempo necessario per completare una serie di coupon scelti a caso soddisfa , e .TTTnnnE[T]∼nlnnE[T]∼nlnnE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T>nlnn+cn)<e−cPr(T>nlnn+cn)<e−c\Pr(T > n \ln n + cn) < e^{-c} Questo limite superiore è migliore di quello dato dalla …
Qual è il metodo preferito per condurre post-hocs nell'ambito dei test dei soggetti? Ho visto lavori pubblicati in cui viene impiegato HSD di Tukey, ma una recensione di Keppel e Maxwell & Delaney suggerisce che la probabile violazione della sfericità in questi progetti rende il termine di errore errato e …
Esiste una differenza concettuale o procedurale tra l'adattamento di un modello ai dati e l'adattamento dei dati al modello? Un esempio della prima formulazione può essere visto in https://courses.washington.edu/matlab1/ModelFitting.html e della seconda in https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.