Парсинг html: вытащить все слова

Рейтинг: 0Ответов: 1Опубликовано: 15.02.2015

Появилась проблема. Нужно спарсить хтмл и вытащить из него все слова, вот полурабочая функция:

preg_match_all("/<.+[^\/]>(.+[^<>])<\/.+>*/ix", $content, $var);

Но она не учитывает пробел перед следующим <.+>, также не может обработать, если вот так хтмл поставлен:

<div>First Text <span>Last text</span></div>

Помогите собрать правильный паттерн.

Ответы

▲ 1
strip_tags($str) + preg_split('/[\W]+/', $str)

А самое забавное то, что это решение гуглится за 2 минуты.