Quando stavo leggendo sull'uso StandardScaler
, la maggior parte dei consigli dicevano che dovresti usare StandardScaler
prima di suddividere i dati in treno / test, ma quando stavo controllando alcuni dei codici pubblicati online (usando sklearn) c'erano due usi principali.
1- Utilizzo StandardScaler
su tutti i dati. Per esempio
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_fit = sc.fit(X)
X_std = X_fit.transform(X)
O
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit(X)
X = sc.transform(X)
O semplicemente
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_std = sc.fit_transform(X)
2- Utilizzo StandardScaler
su dati suddivisi.
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform (X_test)
Vorrei standardizzare i miei dati, ma sono confuso quale sia il metodo migliore!