Re-espressione matematica, spesso non lineare, di valori di dati. I dati vengono spesso trasformati per soddisfare le ipotesi di un modello statistico o per rendere più interpretabili i risultati di un'analisi.
Se ho dati positivi molto distorti, prendo spesso i registri. Ma cosa dovrei fare con dati non negativi molto inclinati che includono zeri? Ho visto due trasformazioni utilizzate: ceppo( x + 1 )log(x+1)\log(x+1) che ha la caratteristica ordinata che 0 mappa a 0. ceppo( x + c )log(x+c)\log(x+c) dove c …
Ho un frame di dati R in questo modo: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Devo ottenere il frame di dati nel seguente …
Supponiamo di avere alcuni dati storici, ad esempio i prezzi delle azioni precedenti, le fluttuazioni dei prezzi dei biglietti aerei, i dati finanziari passati dell'azienda ... Ora arriva qualcuno (o qualche formula) che dice "prendiamo / usiamo il registro della distribuzione" ed ecco dove vado PERCHÉ ? Domande: PERCHÉ si …
Si consiglia spesso di prendere la radice quadrata quando si hanno i dati di conteggio. (Per alcuni esempi su CV, vedi la risposta di @ HarveyMotulsky qui , o la risposta di @ whuber qui .) D'altra parte, quando si adatta un modello lineare generalizzato con una variabile di risposta …
Ho analizzato i miei dati così come sono. Ora voglio guardare le mie analisi dopo aver preso il registro di tutte le variabili. Molte variabili contengono molti zeri. Pertanto aggiungo una piccola quantità per evitare di prendere il registro di zero. Finora ho aggiunto 10 ^ -10, senza alcuna motivazione, …
Nel rispondere a questa domanda su dati discreti e continui ho asserito con disinvoltura che raramente ha senso trattare i dati categorici come continui. A prima vista sembra evidente, ma l'intuizione è spesso una cattiva guida per le statistiche, o almeno lo è la mia. Quindi ora mi chiedo: è …
Ho letto che l'uso di scale di log quando la creazione di grafici / grafici è appropriato in determinate circostanze, come l'asse y in un grafico di serie temporali. Tuttavia, non sono stato in grado di trovare una spiegazione definitiva sul perché sia così o quando altrimenti sarebbe appropriato. Tieni …
Esiste una trasformazione simile a Box-Cox per variabili indipendenti? Cioè, una trasformazione che ottimizza la variabile modo che possa adattarsi più ragionevolmente a un modello lineare?XXxy~f(x) In tal caso, esiste una funzione per eseguire questa operazione R?
Esistono due modi diversi per codificare le variabili categoriali. Supponiamo che una variabile categoriale abbia n valori. La codifica one-hot lo converte in n variabili, mentre la codifica fittizia lo converte in n-1 variabili. Se abbiamo k variabili categoriali, ognuna delle quali ha n valori. Una codifica a caldo termina …
Trasformo tutti i miei dati o le mie pieghe (se viene applicato il CV) contemporaneamente? per esempio (allData - mean(allData)) / sd(allData) Trasformo il set di treni e il set di test separatamente? per esempio (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Oppure trasformo il set di …
Qual è la differenza tra "Normalizzazione" dei dati e "Ridimensionamento" dei dati? Fino ad ora ho pensato che entrambi i termini si riferissero allo stesso processo, ma ora mi rendo conto che c'è qualcosa di più che non conosco / capisco. Inoltre, se esiste una differenza tra normalizzazione e ridimensionamento, …
Mi chiedo se fa differenza nell'interpretazione se solo le variabili dipendenti, dipendenti e indipendenti, o solo le variabili indipendenti, vengono trasformate in log. Considera il caso di log(DV) = Intercept + B1*IV + Error Posso interpretare il IV come l'aumento percentuale, ma come cambia quando lo faccio log(DV) = Intercept …
Quando si trasformano le variabili, è necessario utilizzare tutta la stessa trasformazione? Ad esempio, posso scegliere e scegliere variabili trasformate diversamente, come in: Sia età, la durata dell'impiego, la durata del soggiorno e il reddito.X1, x2, x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Oppure, devi essere coerente con le …
Ho dati da 3 gruppi di biomassa di alghe ( AUNA , BBB , CCC ) che contengono campioni di dimensioni diverse ( nA=15nUN=15n_A=15 , nB=13nB=13n_B=13 , nC=12nC=12n_C=12 ) e vorrei fare un confronto se questi gruppi appartengono alla stessa popolazione . L'ANOVA a senso unico sarebbe sicuramente la strada …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.