Как собрать информацию в комментариях с html страницы на Python

Рейтинг: 0Ответов: 1Опубликовано: 09.08.2023

На вход есть html код

html = "<html><body><!-- Comment 1 --><p>Some text</p><!-- Comment 2 --></body></html>"

print(re.findall(r"<!-- \w+ ?\d* ?--!?>", html))

на выходе должно все выглядеть

list = ['Comment 1', 'Comment 2']

Ответы

▲ 0

Можно это сделать вот так:

import re
html = "<html><body><!-- Comment 1 --><p>Some text</p><!-- Comment 2 --></body></html>"
find=re.findall (r"(?<=<!--)[^(\-\-\>)]*(?=-->)", html)
x=[i.strip() for i in find]
print(x)

Вывод:

['Comment 1', 'Comment 2']