Можно ли использовать алгоритмы кластеризации для задач классификации в machine learning?

Question

Можно ли использовать алгоритмы кластеризации для задач классификации в machine learning?

Рейтинг: 1Ответов: 1Опубликовано: 16.03.2023

В интернете ничего не нашел по этому поводу.

машинное-обучение классификация кластеризация

Answer 1

▲ 1Принят

Не только для классификации, для регрессии тоже можно использовать. Просто обогащаете с помощью кластеризации свои данные дополнительным фактором - номером кластера, к которому принадлежит данное наблюдение, а дальше уже делаете классификацию или регрессию обычным образом. Можно и как-то дополнительно обработать эту информацию - например, сделать аггрегацию каких-то числовых признаков по этим кластерам, чтобы можно было применять какие-то простые модели (линейная регрессия, логистическая регрессия) на этих данных. Ну там средняя/минимальная/максимальная температура/зарплата/"цена квадратного метра" по кластеру, или там ещё какие-то такие штуки. А с номером кластера в чистом виде хорошо будут работать только сложные модели, которые умеют работать с категориальными данными и воспримут номер кластера именно как категориальную переменную (например: XGBoost, CatBoost, Random Forest).

Но нужно иметь в виду, что как и любая методика, эта тоже может "не взлететь" на каких-то данных, всё надо проверять. Может быть и так, что сложные модели и так своими внутренними методами хорошо сгруппируют данные по каким-то признакам и отдельная "ручная" кластеризация ничего не даст в этом случае.

А может получиться и "утечка данных", если в каком-то кластере окажется очень мало наблюдений и все они будут принадлежать к одному классу. В результате это потом может сыграть в минус, а не в плюс, если это окажется случайностью, а не закономерностью. В общем, нужно пробовать, нужно разбираться в данных.

Можно ли использовать алгоритмы кластеризации для задач классификации в machine learning?

Ответы