Почему возникает ошибка ValueError?

Question

Почему возникает ошибка ValueError?

Рейтинг: 0Ответов: 1Опубликовано: 05.02.2023

Я натренировал Random Forest Classifier. Сохранил модель, используя pickle. После, в другом python-файле, загрузил модель и передал ей предложение, которое ввёл.

Возникает ошибка:

ValueError: X has 14 features, but RandomForestClassifier is expecting 148409 features as input".

Вот формы данных:

train dataset features size: (23588, 148409)
train dataset label size: (23588,)
test dataset features size: (10110, 148409)
test dataset label size: (10110,)

Вот форма одного предложения:

text_test shape (15, 14)

Код в файле с постройкой модели:

from sklearn.feature_extraction.text import CountVectorizer, TfidTransformer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

vectorizer = CountVectorizer()
BoW_transformer = vectorizer.fit(data['Text'])
BoW_data = BoW_transformer.transform(data['Text'])
tf_idf_transformer = TfidfTransformer().fit(BoW_data)
data_tf_idf = tf_idf_transformer.transform(BoW_data)
text_train, text_test, label_train, label_test = train_test_split(
    data_tf_idf, data['Label'], test_size=0.3
)
print(f"train dataset features size: {text_train.shape}")
print(f"train dataset label size: {label_train.shape}")
print(f"test dataset features size: {text_test.shape}")
print(f"test dataset label size: {label_test.shape}")
RF_classifier = RandomForestClassifier()
RF_classifier.fit(text_train, label_train)
predict_train = RF_classifier.predict(text_train)
predict_test = RF_classifier.predict(text_test)

Код в файле с входными данными:

import pickle
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer

vectorizer = CountVectorizer()
BoW_transformer = vectorizer.fit(input_string)
BoW_data = BoW_transformer.transform(input_string)
tf_idf_transformer = TfidfTransformer().fit(BoW_data)
data_tf_idf = tf_idf_transformer.transform(BoW_data)
text_test, label_test = train_test_split(
    data_tf_idf, test_size=1
)
print("text_test shape", text_test.shape)
with open("saved_model.pickle", 'rb') as f:
    RF_classifier = pickle.load(f)
predict_test = RF_classifier.predict(text_test)

Проблема, видимо, в том, что векторизатор имеет разные словари в разных файлах. Но как сделать иначе, я не знаю.

python машинное-обучение pickle

Источник: Stack Overflow на русском

Answer 1

▲ 0Принят

Да, проблема в разной подготовке фич. Фичи должны подготавливаться одинаково при тренировке модели и при получении предсказания, иначе вы получите если не ошибку, то просто какой-то бред при предсказании.

В общем, если вы используете какие-то трансформеры с внутренним состоянием и делаете им fit на данных, по которым тренируете модель, то вам нужно также сохранять эти трансформеры через pickle как и вашу модель, а когда делаете предсказание, то читать эти трансформеры из файла и делать ими уже только transform, без fit.

Кроме того, некоторые трансформеры имеют аналоги без внутреннего состояния, например, вместо CountVectorizer можно использовать HashingVectorizer, качество предсказаний возможно будет чуть хуже (а может быть и не будет), но при этом HashingVectorizer не хранит состояние и поэтому во-первых потребляет гораздо меньше памяти, а во-вторых его состояние не нужно сохранять и потом загружать (у него его просто нет), а нужно просто инициализировать его теми же аргументами при предсказании, что и при тренировке модели, и этого будет достаточно.

Почему возникает ошибка ValueError?

Ответы