Panda è una libreria Python per la manipolazione e l'analisi di Panel Data, ad esempio serie temporali multidimensionali e set di dati trasversali che si trovano comunemente in statistica, risultati scientifici sperimentali, econometria o finanza.
Uso i panda da un po 'di tempo. Ma non capisco qual è la differenza tra isna()e isnull()nei panda. E, soprattutto, quale utilizzare per identificare i valori mancanti nel frame di dati. Qual è la differenza di base alla base di come viene rilevato un valore come uno nao null?
Uso SQL dal 1996, quindi potrei essere di parte. Ho usato ampiamente MySQL e SQLite 3, ma ho anche usato Microsoft SQL Server e Oracle. La stragrande maggioranza delle operazioni che ho visto fare con Panda può essere eseguita più facilmente con SQL. Ciò include il filtraggio di un set …
Ho ottenuto ValueError durante la previsione dei dati di test utilizzando un modello RandomForest. Il mio codice: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) L'errore: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Come trovo i valori errati …
Ho un frame di dati Panda con diverse voci e voglio calcolare la correlazione tra le entrate di un tipo di negozi. Esistono numerosi negozi con dati sul reddito, classificazione dell'area di attività (teatro, negozi di vestiti, cibo ...) e altri dati. Ho provato a creare un nuovo frame di …
Attualmente sto provando ad aprire un file con Panda e Python per scopi di apprendimento automatico, sarebbe l'ideale per me averli tutti in un DataFrame. Ora il file ha una dimensione di 18 GB e la mia RAM è di 32 GB, ma continuo a ricevere errori di memoria. Dalla …
Sto cercando di convertire un elenco di elenchi simile al seguente in un frame di dati Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
Ho un programma di modellazione e punteggio che fa un uso DataFrame.isinintensivo della funzione dei panda, cercando negli elenchi di Facebook "come" i record dei singoli utenti per ciascuna delle poche migliaia di pagine specifiche. Questa è la parte del programma che richiede più tempo, più che la modellazione o …
Vorrei confrontare una colonna di un df con altri df. Le colonne sono nomi e cognomi. Vorrei verificare se una persona in un frame di dati si trova in un altro.
Ho un Pandas DataFrame come questo: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 Come posso generare …
Supponiamo di avere un frame di dati 5 * 3 in cui la terza colonna contiene un valore mancante 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN Spero di generare valore per la regola basata sul valore mancante nella prima colonna del primo …
Sto lavorando a una sfida di Kaggle in cui alcune variabili sono rappresentate da righe anziché da colonne (interruzione della rete Telstra). Attualmente sto cercando l'equivalente di gather (), separate () e spread (), che si trova nello strumento R tidyr.
Come posso ottenere il numero di valore mancante in ogni riga nel frame di dati di Pandas. Vorrei dividere i frame di dati in frame di dati diversi che hanno lo stesso numero di valori mancanti in ogni riga. Qualche suggerimento?
Sto creando un flusso di lavoro per la creazione di modelli di machine learning (nel mio caso, usando Python pandase sklearnpacchetti) da dati estratti da un database molto grande (qui, Vertica tramite SQL e pyodbc), e un passaggio fondamentale in questo processo prevede l'imputazione mancante valori dei predittori. Questo è …
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.