Da Wikipedia, la riduzione della dimensionalità o la riduzione della dimensione è il processo di riduzione del numero di variabili casuali in esame e può essere suddiviso in selezione e estrazione delle caratteristiche. Qual è la differenza tra la selezione e l'estrazione della funzione? Qual è un esempio di riduzione …
Quali sono le pratiche migliori / comuni per gestire i dati temporali per l'applicazione di apprendimento automatico? Ad esempio, se nel set di dati è presente una colonna con data / ora dell'evento, ad esempio "05-05-2014", come è possibile estrarre funzioni utili da questa colonna? Grazie in anticipo!
Sto lavorando al problema con troppe funzioni e la formazione dei miei modelli richiede troppo tempo. Ho implementato l'algoritmo di selezione diretta per scegliere le funzionalità. Tuttavia, mi chiedevo scikit-learn ha algoritmo di selezione in avanti / regressione graduale?
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
In particolare quello che sto cercando sono strumenti con alcune funzionalità, che è specifico per l'ingegneria delle funzionalità. Vorrei poter facilmente smussare, visualizzare, colmare lacune, ecc. Qualcosa di simile a MS Excel, ma che ha R come lingua sottostante anziché VB.
Attualmente sto usando XGBoost su un set di dati con 21 funzionalità (selezionate dall'elenco di circa 150 funzionalità), quindi le ho codificate a caldo per ottenere ~ 98 funzionalità. Alcune di queste 98 funzionalità sono in qualche modo ridondanti, ad esempio: una variabile (funzione) appare anche come e .UNUNABUNBUN\frac{B}{A}CUNCUN\frac{C}{A} Le …
Sto partecipando a una competizione kaggle. Il set di dati ha circa 100 funzionalità e tutte sono sconosciute (in termini di ciò che effettivamente rappresentano). Fondamentalmente sono solo numeri. Le persone stanno eseguendo molta ingegneria di funzionalità su queste funzionalità. Mi chiedo come esattamente si è in grado di eseguire …
Il problema che sto affrontando sta classificando brevi testi in più classi. Il mio approccio attuale è quello di utilizzare le frequenze dei termini ponderate tf-idf e apprendere un semplice classificatore lineare (regressione logistica). Funziona abbastanza bene (circa il 90% di macro F-1 sul set di test, quasi il 100% …
Mi chiedo se ci siano euristiche sul numero di caratteristiche rispetto al numero di osservazioni. Ovviamente, se un numero di funzioni è uguale al numero di osservazioni, il modello si adatta in modo eccessivo. Utilizzando metodi sparsi (LASSO, rete elastica) possiamo rimuovere diverse funzionalità per ridurre il modello. La mia …
So che non esiste una risposta chiara a questa domanda, ma supponiamo che io abbia una grande rete neurale, con molti dati e che voglio aggiungere una nuova funzionalità in input. Il modo "migliore" sarebbe testare la rete con la nuova funzionalità e vedere i risultati, ma esiste un metodo …
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
L'estrazione e la selezione delle caratteristiche riducono sostanzialmente la dimensionalità dei dati, ma l'estrazione delle caratteristiche rende anche i dati più separabili, se ho ragione. Quale tecnica sarebbe preferita rispetto alle altre e quando? Stavo pensando, poiché la selezione delle funzionalità non modifica i dati originali e le sue proprietà, …
Supponiamo di avere due tipi di funzionalità di input, categoriche e continue. I dati categorici possono essere rappresentati come un codice di scelta rapida A, mentre i dati continui sono solo un vettore B nello spazio N-dimensione. Sembra che usare semplicemente concat (A, B) non sia una buona scelta perché …
Supponiamo un insieme di dati vagamente strutturati (ad es. Tabelle Web / dati aperti collegati), composto da molte origini dati. Non esiste uno schema comune seguito dai dati e ogni fonte può usare attributi sinonimo per descrivere i valori (ad es. "Nazionalità" vs "bornIn"). Il mio obiettivo è trovare alcuni …
Ho un set di dati binari altamente distorto: ho 1000 volte più esempi della classe negativa rispetto alla classe positiva. Vorrei addestrare un albero insieme (come alberi casuali extra o una foresta casuale) su questi dati, ma è difficile creare set di dati di addestramento che contengano abbastanza esempi della …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.