PHP: Как спарсить текст с ряда сайтов, полностью очистив тексты от их индивидуального форматирования, стилей, тегов, html?
Паршу в качестве эксперимента группы сайтов. Тексты с их страниц мне нужно объединить в один текст. У нужных страниц разных сайтов индивидуальное форматирование.
Если забираю информацию регулярным выражением по <p></p>
, то многие сайты выпадают, потому что у них не таким тегом все сделано.
Если пытаюсь очистить тексты от лишних элементов, например, вставок Youtube-роликов, то strip_tags
только часть элементов удаляет.
Некоторые вещи в iframe
, некоторые в дивах, внутри дивов, содержащих другие дивы. Особенностей уйма.
Подскажите, как с ряда сайтов спарсить очищенные от всего тексты? У кого есть такой опыт? Буду благодарен за любой совет...
Источник: Stack Overflow на русском