Нахождение близости двух текстов
Задача, которую необходимо решить - проанализировав массив предложений необходимо предположить, к какому разделу (теме) относится этот текст для того, чтобы в конечном счёте предположить о "близости" двух таких массивов предложений. Пример: В одном тексте рассказывается об футбольном матче одной команды, а в другом - о хоккейном матче. Следовательно, эти 2 текста относятся к одному разделу "спорт" и будет "ближе" друг к другу, чем текст о компьютерных играх.
Нашёл сайт, на котором существуют различные вектора слова (https://nlpub.ru/Russian_Distributional_Thesaurus). Пример одного из таких: [словесность][литература][0.693631] - слово "словесность" является синонимом слова "литература" на 0.693631. Может ли это как-нибудь помочь в решении моей задачи? Нужна лишь подсказка, в какую сторону копать и о чём гуглить информацию. Нужно ли будет создавать нейронку и обучать её?