Нахождение близости двух текстов

Рейтинг: 0Ответов: 1Опубликовано: 30.04.2023

Задача, которую необходимо решить - проанализировав массив предложений необходимо предположить, к какому разделу (теме) относится этот текст для того, чтобы в конечном счёте предположить о "близости" двух таких массивов предложений. Пример: В одном тексте рассказывается об футбольном матче одной команды, а в другом - о хоккейном матче. Следовательно, эти 2 текста относятся к одному разделу "спорт" и будет "ближе" друг к другу, чем текст о компьютерных играх.

Нашёл сайт, на котором существуют различные вектора слова (https://nlpub.ru/Russian_Distributional_Thesaurus). Пример одного из таких: [словесность][литература][0.693631] - слово "словесность" является синонимом слова "литература" на 0.693631. Может ли это как-нибудь помочь в решении моей задачи? Нужна лишь подсказка, в какую сторону копать и о чём гуглить информацию. Нужно ли будет создавать нейронку и обучать её?

Ответы

▲ 0

Копайте в сторону "кластеризации тестов". Это целое направление в NLP, и методов там испробовано куча: самоорганизующаяся сеть Кохонена, методы К-средних, спектральной кластеризации; агломеративной кластеризации. Используется весьма широко - когда-то то-ли Reuters то-ли Bloomberg хвастался, что сократил 80% сотрудников занимающихся систематизацией поступающей информации внедрив систему автоматической кластеризации. Кстати в ChatGPT внутри себя некоторые элементы этих методов использует.