Ho un pandas
data frame e vorrei poter prevedere i valori della colonna A dai valori nelle colonne B e C.Ecco un esempio di giocattolo:
import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50],
"B": [20, 30, 10, 40, 50],
"C": [32, 234, 23, 23, 42523]})
Idealmente, avrei qualcosa di simile, ols(A ~ B + C, data = df)
ma quando guardo gli esempi dalle librerie di algoritmi come scikit-learn
sembra che fornisca i dati al modello con un elenco di righe anziché di colonne. Ciò richiederebbe di riformattare i dati in elenchi all'interno di elenchi, il che sembra vanificare lo scopo dell'uso dei panda in primo luogo. Qual è il modo più pitonico per eseguire una regressione OLS (o qualsiasi algoritmo di apprendimento automatico più in generale) sui dati in un frame di dati panda?
formula
, invece ho digitato accidentalmenteformulas
e ho ricevuto uno strano errore:TypeError: from_formula() takes at least 3 arguments (2 given)