Определение схожих вопросов

Рейтинг: 1Ответов: 0Опубликовано: 07.01.2015

Задача состоит в том, что нужно вести учет схожих, по смыслу, вопросов к роботу. Я читал об алгоритмах и способах анализа двух текстов на схожесть, но все они ориентированы именно на тексты, занимающие хотя бы пару абзацев. В моем же случае вопрос может состоять и из трех слов. Под схожестью подразумевается то, что два вопроса ниже имеют один смысл, значит схожи:

до скольки работает магазин? 
когда закрывается магазин?

В идеальном варианте с предыдущими двумя схож еще и вопрос:

до скольки можно посетить ваш магазин?

Сам смотрел в сторону:

  • канонизации вопросов (убирая слова по типу "ли", "то", "ну" и приводя оставшиеся слова по принципу "работает" -> "работать") - так себе результат показывает
  • определения схожести вопросов по наличию ключевых слов.
  • подбор синонимов (для определения того, что используется слово с одной смысловой нагрузкой) - не всегда подбирается одно слово.

Буду очень благодарен, если кто-то подскажет в какую сторону смотреть и поделится собственным опытом в этой сфере. Делается это все на python.

Ответы

Ответов пока нет.