Обнуляется html файл с кодом сайта, когда в него заходишь в браузере. Python

Рейтинг: 0Ответов: 1Опубликовано: 16.02.2023
  1. Мне нужна полная копия страницы для дальнейшего парсинга, но при открытии html файла сама страница держится всего пару секунд, как это обойти
  2. Как обойти ошибку 403 при get запросе этого сайта https://www.vseinstrumenti.ru

Код:

from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent

url= "https://www.sdvor.com/tmn/category/perforatory-6114"
UserAgent().chrome

req = requests.get(url, headers={'User-Agent': UserAgent().chrome})
scrap = req.text
print(scrap)

Изначально сохранялся пустой файл, но потом добавил в след строку encoding="utf-8-sig и информация файла стала держаться пару секунд

with open("index.html", "w", encoding="utf-8-sig") as file:
    file.write(scrap)

soup = BeautifulSoup (scrap, "lxml")
print(soup)

Ответы

▲ 0
from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent

url = "https://www.sdvor.com/tmn/category/perforatory-6114"
req = requests.get(url, headers={'User-Agent': UserAgent().chrome})
print(req)
# Response [200]
soup = BeautifulSoup(req.text, "lxml")
print(soup.find('a', class_="product-name").text)
#  Перфоратор Makita HR2470

Есть доступ к исходникам сайта, можно вытянут нужную инфу.