Le richieste di set di dati sono fuori tema su questo sito. Utilizzare questo tag per domande relative alla creazione, all'elaborazione o alla manutenzione di set di dati.
Vedo spesso che le persone che fanno una dimensione / caratteristica di un set di dati hanno una media zero rimuovendo la media da tutti gli elementi. Ma non ho mai capito perché farlo? Qual è l'effetto di farlo come una fase di preelaborazione? Migliora le prestazioni di classificazione? Aiuta …
Sono un dottorando in psicologia sperimentale e faccio del mio meglio per migliorare le mie capacità e conoscenze su come analizzare i miei dati. Fino al mio quinto anno di psicologia, ho pensato che i modelli simili alla regressione (ad es. ANOVA) assumessero le seguenti cose: normalità dei dati omogeneità …
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 6 anni fa . Sto usando i file di testo per memorizzare i miei dati per R senza alcun problema da …
Nota: questa domanda è una risposta, poiché la mia domanda precedente doveva essere cancellata per motivi legali. Confrontando PROC MIXED da SAS con la funzione lmedel nlmepacchetto in R, mi sono imbattuto in alcune differenze piuttosto confuse. Più specificamente, i gradi di libertà nei diversi test differiscono tra PROC MIXEDe …
Ho il sospetto che la maggior parte degli utenti di strumenti statistici siano utenti ausiliari (persone che hanno avuto poca o nessuna formazione formale in statistica). È molto allettante per i ricercatori e altri professionisti applicare metodi statistici ai propri dati semplicemente perché l'hanno visto "fatto prima" in articoli sottoposti …
Hadley Wickham ha scritto un articolo stellare chiamato "Tidy Data" ( link ) in JSS lo scorso anno sulla manipolazione dei dati e riportando i dati in una condizione "ottimale" per eseguire analisi. Tuttavia, mi chiedevo quali fossero le migliori pratiche in termini di presentazione di dati tabulari in un …
Sono uno studente di fisica che studia apprendimento automatico / scienza dei dati, quindi non intendo per questa domanda iniziare alcun conflitto :) Tuttavia, gran parte di qualsiasi programma di laurea in fisica è fare laboratori / esperimenti, il che significa molti dati elaborazione e analisi statistica. Tuttavia, noto una …
Sto cercando il metodo di binning ottimale (discretizzazione) di una variabile continua rispetto a una determinata variabile binaria di risposta (target) e con il numero massimo di intervalli come parametro. esempio: ho un insieme di osservazioni di persone con variabili "height" (numeral continue) e "has_back_pains" (binarie). Voglio discretizzare l'altezza in …
La ricerca in Internet del tutorial PCA offre migliaia di risultati (anche video). Molti tutorial sono molto buoni. Ma non sono in grado di trovare alcun esempio pratico in cui viene spiegato PCA utilizzando alcuni set di dati che posso usare per la dimostrazione. Ho bisogno di un tutorial che …
Un nome: primo, possibilmente un mezzo, e cognome. Sono curioso di sapere quante informazioni è possibile estrarre da un nome, utilizzando set di dati disponibili pubblicamente. So che puoi ottenere quanto segue ovunque tra una probabilità bassa-alta (a seconda dell'input) usando i dati del censimento degli Stati Uniti: 1) Genere. …
Ho una grande matrice (650K righe * 62 colonne) di dati binari (solo voci 0-1). La matrice è prevalentemente sparsa: circa l'8% è riempito. Vorrei raggrupparlo in 5 gruppi - diciamo chiamato da 1 a 5. Ho provato il clustering gerarchico e non sono stato in grado di gestire le …
Come dice il titolo, qualcuno conosce un buon libro aggiornato che tratta la preelaborazione dei dati in generale e soprattutto le tecniche di rilevamento anomalo? Non è necessario che il libro si concentri esclusivamente su questo, ma dovrebbe occuparsi in modo esauriente degli argomenti di cui sopra - Non sarei …
È solo l'aggregazione di punti dati? O è la rappresentazione di punti dati per diversi elementi in un formato tabulare organizzato con valori delle diverse variabili? In che cosa differisce dai dati grezzi?
Ok, avvertimento equo - questa è una domanda filosofica che non comporta numeri. Ho pensato molto a come gli errori si insinuano nei set di dati nel tempo e come dovrebbero essere trattati dagli analisti - o se dovrebbe davvero importare del tutto? Per lo sfondo, sto facendo l'analisi su …
Quindi, ad esempio, ecco le definizioni che ottengo dai libri di testo standard Variabile - caratteristica della popolazione o del campione. ex. Prezzo di uno stock o grado in un test Dati - valori osservati effettivi Quindi, per un rapporto a due colonne [Nome | Reddito] i nomi delle colonne …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.