Большая просьба помочь с clf.predict_proba(X)

OlegPM

Новичок
Пользователь
Янв 18, 2021
1
0
1
Очень нужна помощь в завершении задания:
на входе получаю датафрейм с числовыми и категориальными признаками 1761 rows × 19 columns,
сделал one-hot-encoding для категориальных, в результате получил уже 1761 rows × 45 columns,
использовал логистическую регрессию:

Код:
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
X, y = load_iris(return_X_y=True)
clf = LogisticRegression(random_state=0).fit(X, y)
clf.predict(X)
clf.predict_proba(X)
clf.score(X, y)

получил: 0.9733333333333334

(LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)

Но для проверки нужно выполнить:

submission['Churn'] = clf.predict_proba(X)

Но у меня clf.predict_proba(X) - это три столбца с Length: 150, а у submission['Churn'] - 1761 и один столбец.
То есть model.predict_proba(X) должна дать два столбца - 1761 rows × 2 columns и тогда можно будет отбросить первый и закончить задание.
Пока никак не могу понять, как преобразовать алгоритм, или вообще использовать другой. Большая просьба помочь!
 

Форум IT Специалистов