PHP: Как спарсить текст с ряда сайтов, полностью очистив тексты от их индивидуального форматирования, стилей, тегов, html?

Рейтинг: 0Ответов: 0Опубликовано: 02.05.2023

Паршу в качестве эксперимента группы сайтов. Тексты с их страниц мне нужно объединить в один текст. У нужных страниц разных сайтов индивидуальное форматирование.

Если забираю информацию регулярным выражением по <p></p>, то многие сайты выпадают, потому что у них не таким тегом все сделано.
Если пытаюсь очистить тексты от лишних элементов, например, вставок Youtube-роликов, то strip_tags только часть элементов удаляет.

Некоторые вещи в iframe, некоторые в дивах, внутри дивов, содержащих другие дивы. Особенностей уйма.

Подскажите, как с ряда сайтов спарсить очищенные от всего тексты? У кого есть такой опыт? Буду благодарен за любой совет...

Ответы

Ответов пока нет.