Определение схожих вопросов
Задача состоит в том, что нужно вести учет схожих, по смыслу, вопросов к роботу. Я читал об алгоритмах и способах анализа двух текстов на схожесть, но все они ориентированы именно на тексты, занимающие хотя бы пару абзацев. В моем же случае вопрос может состоять и из трех слов. Под схожестью подразумевается то, что два вопроса ниже имеют один смысл, значит схожи:
до скольки работает магазин?
когда закрывается магазин?
В идеальном варианте с предыдущими двумя схож еще и вопрос:
до скольки можно посетить ваш магазин?
Сам смотрел в сторону:
- канонизации вопросов (убирая слова по типу "ли", "то", "ну" и приводя оставшиеся слова по принципу "работает" -> "работать") - так себе результат показывает
- определения схожести вопросов по наличию ключевых слов.
- подбор синонимов (для определения того, что используется слово с одной смысловой нагрузкой) - не всегда подбирается одно слово.
Буду очень благодарен, если кто-то подскажет в какую сторону смотреть и поделится собственным опытом в этой сфере. Делается это все на python.
Источник: Stack Overflow на русском