Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Mi è stato insegnato ad applicare il test esatto di Fisher solo in tabelle di contingenza 2x2. Domande: Fisher stesso ha mai immaginato che questo test potesse essere utilizzato in tabelle più grandi di 2x2 (sono consapevole della storia di lui che ha ideato il test mentre provavo a indovinare …
Sto confrontando un campione e sto verificando se distribuisce come una distribuzione discreta. Tuttavia, non sono pienamente sicuro che si applichi Kolmogorov-Smirnov. Wikipedia sembra implicare che non lo sia. In caso contrario, come posso testare la distribuzione del campione?
Quali sono alcuni podcast relativi all'analisi statistica? Ho trovato alcune registrazioni audio delle lezioni del college su ITunes U, ma non sono a conoscenza di alcun podcast statistico. La cosa più vicina di cui sono a conoscenza è un podcast di ricerca operativa The Science of Better . Tocca questioni …
Quindi, ho un set di dati di percentuali come questo: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) Voglio trovare la deviazione standard delle percentuali, ma ponderata per il loro volume di dati. cioè, …
Quali sono le selezioni variabili / caratteristiche che preferisci per la classificazione binaria quando ci sono molte più variabili / caratteristiche rispetto alle osservazioni nel set di apprendimento? Lo scopo qui è discutere qual è la procedura di selezione delle caratteristiche che riduce al meglio l'errore di classificazione. Possiamo correggere …
Come posso verificare l'equità di un dado a venti facce (d20)? Ovviamente confronterei la distribuzione dei valori con una distribuzione uniforme. Ricordo vagamente di aver usato un test Chi-square al college. Come posso applicare questo per vedere se un dado è giusto?
È possibile verificare la finezza (o l'esistenza) della varianza di una variabile casuale dato un campione? Come null, {la varianza esiste ed è finita} o {la varianza non esiste / è infinita} sarebbe accettabile. Filosoficamente (e computazionalmente), questo sembra molto strano perché non ci dovrebbero essere differenze tra una popolazione …
Nella tecnica di riduzione della dimensionalità come Analisi dei componenti principali, LDA ecc. Viene spesso utilizzato il termine collettore. Che cos'è una varietà in termini non tecnici? Se un punto appartiene ad una sfera il cui voglio ridurre, e se v'è un rumore dimensione ed ed sono incorrelati, allora i …
L' errore percentuale assoluta media ( mape ) è una misura di precisione o di errore comune per serie temporali o altre previsioni, MAPE = 100nΣt = 1n| UNt- Ft|UNt% ,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, dove sono effettivi e previsioni o previsioni corrispondenti.F tUNtAtA_tFtFtF_t Il MAPE è una percentuale, quindi possiamo …
È disponibile una tecnica bootstrap per calcolare gli intervalli di previsione per le previsioni dei punti ottenute ad esempio dalla regressione lineare o altro metodo di regressione (k-vicino più vicino, alberi di regressione ecc.)? In qualche modo ritengo che il modo a volte proposto di avviare semplicemente la previsione del …
Mi è stato detto che è utile utilizzare la validazione incrociata stratificata, specialmente quando le classi di risposta sono sbilanciate. Se uno scopo della convalida incrociata è quello di aiutare a spiegare la casualità del nostro campione di dati di allenamento originale, fare sicuramente ogni piega con la stessa distribuzione …
Ho un modello di regressione logistica binaria con uno pseudo R-quadrato di McFadden di 0,192 con una variabile dipendente chiamata payment (1 = pagamento e 0 = nessun pagamento). Qual è l'interpretazione di questo pseudo R-quadrato? È un confronto relativo per i modelli nidificati (ad esempio un modello a 6 …
Sto convalidando in modo incrociato un modello che sta cercando di prevedere un conteggio. Se questo fosse un problema di classificazione binaria, calcolerei l'AUC out-fold e se questo fosse un problema di regressione calcolerei RMSE o MAE out-of-fold. Per un modello di Poisson, quali parametri di errore posso usare per …
Ho partecipato a una competizione di machine learning in cui usano RMSLE (Root Mean Squared Logarithmic Error) per valutare le prestazioni prevedendo il prezzo di vendita di una categoria di apparecchiature. Il problema è che non sono sicuro di come interpretare il successo del mio risultato finale. Ad esempio, se …
Possiamo usare lm()per prevedere un valore, ma in alcuni casi abbiamo ancora bisogno dell'equazione della formula del risultato. Ad esempio, aggiungere l'equazione ai grafici.
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.