Парсинг RSS без дублей

Рейтинг: 0Ответов: 1Опубликовано: 19.06.2011

Мне нужно парсить rss ленту и постить полученные данные в cms, постингом в cms и парсингом самой rss ленты проблем нет. Проблема в дублях новостей, была мысль записывать pubDate последней новости в файл, после чего проверять его, т.е. вычислять обновления и постить последнюю запись из rss... Так потом подумал, а что если будет несколько новых записей? Вообщем хз, как правильно поступить, помогите решить, пожалуйста :)

Ответы

▲ 2Принят

Вариантов масса...

  • Можно сохранять дату и время последней новости. А, затем, в цикле перебирать ленту и постить только те новости, которые идут после предварительно сохраненной временной отметки.
  • Можно проделать тоже самое, но с сохранением URL последнего добавленного источника.
  • Если есть возможность прямого доступа к базе данных, можно создать поле для записи URL источника, и наложить на него ограничение по уникальности, а посты слать через INSERT IGNORE INTO. В этом случае MySQL отработает по тихому (без ошибок), но добавит только новые записи.