Как определить новости на одну тему с разных сайтов?
Пишу парсер, собирающий свежие новости с крупных новостных порталов. Часто возникает ситуация, когда несколько сайтов выкладывают новость на одну и ту же тему под разными заголовками, например:
- interfax.ru: Капков ушел в отставку с поста главы департамента культуры Москвы
- top.rbc.ru: На место Сергея Капкова назначен глава Мосгорнаследия
- vesti.ru: Сергей Капков покинул правительство Москвы
- lenta.ru: Собянин принял отставку Капкова )
От таких дублей надо избавиться, а как - я не могу придумать. Сами заголовки были мной изрядно помучены, но в примере, например, в первых двух заголовках только два одинаковых слова. По текстам вычислять сходство я даже не брался, т.к. не знаю,с какой стороны подступится. Да и подозреваю я,что их тексты антиплагиат в схожести не уличит, куда уж мне. Что посоветуете?
P.S. Парсер работает на стандартном наборе: php+curl, mysql, ajax итд. Статьи берутся отсюда, парсятся регулярками по мере появления новых в топе и заносятся в бд, есть white-list доменов.