Mi chiedo quale sia il valore nel prendere una variabile predittiva continua e scomporla (ad es. In quintili), prima di usarla in un modello. Mi sembra che, binning della variabile, perdiamo informazioni. È solo per poter modellare effetti non lineari? Se mantenessimo la variabile continua e in realtà non fosse …
Poiché la RF è in grado di gestire la non linearità ma non può fornire coefficienti, sarebbe saggio utilizzare la foresta casuale per raccogliere le caratteristiche più importanti e quindi collegarle a un modello di regressione lineare multipla al fine di ottenere i loro coefficienti?
È possibile equipaggiare troppo un modello di regressione logistica? Ho visto un video in cui si diceva che se la mia area sotto la curva ROC è superiore al 95%, è molto probabile che venga adattata in modo eccessivo, ma è possibile utilizzare un modello di regressione logistica?
Sto riflettendo sulla discussione intorno a questa domanda e in particolare sul commento di Frank Harrell secondo cui la stima della varianza in un modello ridotto (cioè uno da cui sono state testate e respinte una serie di variabili esplicative) dovrebbe usare i gradi di libertà generalizzati di Ye . …
Come tutti sappiamo, ci sono 2 metodi per valutare il modello di regressione logistica e stanno testando cose molto diverse Potenza predittiva: Ottieni una statistica che misura la capacità di prevedere la variabile dipendente in base alle variabili indipendenti. I noti Pseudo R ^ 2 sono McFadden (1974) e Cox …
Supponiamo di aver addestrato diversi modelli sul set di allenamento, scegline uno migliore utilizzando il set di convalida incrociata e misurato le prestazioni sul set di test. Quindi ora ho un ultimo modello migliore. Devo riqualificarli su tutti i dati disponibili o sulla soluzione di spedizione addestrati solo sul set …
A parte alcune circostanze uniche in cui dobbiamo assolutamente comprendere la relazione media condizionale, quali sono le situazioni in cui un ricercatore dovrebbe scegliere OLS rispetto alla regressione quantistica? Non voglio che la risposta sia "se non serve a capire le relazioni di coda", dato che potremmo semplicemente usare la …
Ho dedicato molto tempo allo sviluppo di metodi e software per la validazione di modelli predittivi nel tradizionale dominio statistico frequentista. Nel mettere in pratica più idee bayesiane e nell'insegnamento vedo alcune differenze chiave da abbracciare. In primo luogo, la modellazione predittiva bayesiana chiede all'analista di riflettere attentamente sulle distribuzioni …
I metodi di selezione delle variabili algoritmiche graduali tendono a selezionare per i modelli che influenzano più o meno ogni stima nei modelli di regressione ( e loro SE, valori p , statistiche F , ecc.) E hanno la probabilità di escludere predittori reali quanto includere falsi predittori secondo una …
Frank Harrell ha aperto un blog ( Statistical Thinking) . Nel suo primo incarico , elenca alcune caratteristiche chiave della sua filosofia statistica. Tra gli altri articoli, include: Rendi la dimensione del campione una variabile casuale quando possibile Cosa significa "rendere la dimensione del campione una variabile casuale"? Quali sono …
Questo è il mio primo post su StackExchange, ma lo uso da parecchio tempo, farò del mio meglio per utilizzare il formato appropriato e apportare le modifiche appropriate. Inoltre, questa è una domanda in più parti. Non ero sicuro di dover dividere la domanda in più post o in uno …
Dopo aver cercato chiarimenti sui coefficienti del modello lineare qui, ho una domanda di follow-up riguardante i non significativi (alto valore p) per i coefficienti dei livelli dei fattori. Esempio: se il mio modello lineare include un fattore con 10 livelli e solo 3 di quei livelli hanno valori p …
Nell'analisi discriminante, la variabile dipendente è categorica, ma posso usare una variabile categoriale (ad es. Stato residenziale: rurale, urbano) insieme ad altre variabili continue come variabile indipendente nell'analisi discriminante lineare?
Utilizzando questi dati: head(USArrests) nrow(USArrests) Posso fare un PCA in questo modo: plot(USArrests) otherPCA <- princomp(USArrests) Posso ottenere i nuovi componenti otherPCA$scores e la percentuale di varianza spiegata dai componenti con summary(otherPCA) E se volessi sapere quali variabili sono principalmente spiegate da quali componenti principali? E viceversa: ad esempio PC1 …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.