Обнуляется html файл с кодом сайта, когда в него заходишь в браузере. Python

Question

Обнуляется html файл с кодом сайта, когда в него заходишь в браузере. Python

Рейтинг: 0Ответов: 1Опубликовано: 16.02.2023

Мне нужна полная копия страницы для дальнейшего парсинга, но при открытии html файла сама страница держится всего пару секунд, как это обойти
Как обойти ошибку 403 при get запросе этого сайта https://www.vseinstrumenti.ru

Код:

from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent

url= "https://www.sdvor.com/tmn/category/perforatory-6114"
UserAgent().chrome

req = requests.get(url, headers={'User-Agent': UserAgent().chrome})
scrap = req.text
print(scrap)

Изначально сохранялся пустой файл, но потом добавил в след строку encoding="utf-8-sig и информация файла стала держаться пару секунд

with open("index.html", "w", encoding="utf-8-sig") as file:
    file.write(scrap)

soup = BeautifulSoup (scrap, "lxml")
print(soup)

html requests парсер beautiful-soup

Источник: Stack Overflow на русском

Answer 1

▲ 0

from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent

url = "https://www.sdvor.com/tmn/category/perforatory-6114"
req = requests.get(url, headers={'User-Agent': UserAgent().chrome})
print(req)
# Response [200]
soup = BeautifulSoup(req.text, "lxml")
print(soup.find('a', class_="product-name").text)
#  Перфоратор Makita HR2470

Есть доступ к исходникам сайта, можно вытянут нужную инфу.

Обнуляется html файл с кодом сайта, когда в него заходишь в браузере. Python

Ответы