Парсинг слабоструктурированного текста

Question

Парсинг слабоструктурированного текста

Рейтинг: 2Ответов: 1Опубликовано: 31.01.2015

Здравствуйте.

Есть вот такой текст1, состоящий из вопроса и ответов:

Какие три черты из перечисленных ниже характеризовали правление царя Алексея Михайловича? Соответствующие цифры и запишите их в ответ.

1. церковный раскол
2. начало деятельности Земских соборов
3. обмирщение культуры
4. угасание деятельности Земских соборов
5. раздел Речи Посполитой
6. создание коллегий

Также есть текст2, состоящий из вот такого (например) пояснения:

В правление царя Алексея Михайловича (1645—1676 гг.) произошел церковный раскол в результате реформ патриарха Никона, начался процесс обмирщения культуры и угасала деятельность Земских соборов. Первый Земский собор начал работу в 1549 году. Разделы Речи Посполитой прошли в 1772, 1793, 1795 гг. Коллегии были созданы в 1718 году.

Как на основе анализа этих двух текстов, получить на выходе массив индексов с правильными ответами, т.е.:

1, 3, 4, 5, 6
?

Т.е. требуется какой-нибудь готовый интеллектуальный анализатор для текста, который будет выполнять поиск подстрок в неструктурированном тексте, основываясь на отбрасывании окончаний.

парсер

Источник: Stack Overflow на русском

Answer 1

▲ 2Принят

Условия:

Оба текста на русском.
Первый текст легко парсим (т.е. состоит из пунктов 1) 2) 3) и т.д.)
Второй текст всегда истинный и по теме.
Мы согласны на правильную работу алгоритма ~60% случаях.

Алгоритм:

Парсим первый тест на условия (т.е. разделяем на "церковный раскол", "начало деятельности земских соборов" и т.д.)
Делаем следующие пункты алгоритма для каждого из условий:
Проходимся по второму тексту, оцениваем синонимичность каждого слова предложения со словами из нашего условия. Придётся использовать различные библиотеки и базы слов.
Делаем проверки на содержание "не" в нашем условии и предложении.
Если (коэффициент синонимичности > N), то { если (проверки на не совпадают (т.е. и там, и там либо не есть, либо не нету)), то условие верно, иначе условие неверно } (N находится методом подбора так, чтобы программа лучше работала).
Если коэффициент меньше N в каждом предложении для условия, то лучше пользователю так и написать "в тексте не сказано/программа не нашла".

Правда, этот алгоритм, например, не учитывает антонимы.

Короче, дальше начинается эвристика, а основа алгоритма примерно такая.

Парсинг слабоструктурированного текста

Ответы