Как спарсить все ссылки с sitemap.xml? Python

Рейтинг: 0Ответов: 1Опубликовано: 26.06.2023

Есть карта сайта: https://www.stussy.com/sitemap_products_1.xml?from=4103557054560&to=6660699586656 Мне нужно спарсить все ссылки на товары. Каким способом лучше сделать?

Ответы

▲ 1Принят

Надо просто явно указать тип документа:

import requests
from bs4 import BeautifulSoup

url = 'https://www.stussy.com/sitemap_products_1.xml?from=4103557054560&to=6660699586656'
response = requests.get(url)
soup = BeautifulSoup(response.text, "xml")
loc_list = soup.find_all('loc')

for loc in loc_list:
    print(f"{loc.text}")