Как правильно парсить страницу с помощью BeautifulSoup?

Question

Как правильно парсить страницу с помощью BeautifulSoup?

Рейтинг: 3Ответов: 2Опубликовано: 05.02.2023

Хочу спарсить страницу новостей сайта, а именно: время публикации, название новости, ссылка на новость. Но, вместо того, чтобы выводить все новости страницы выводит только 1 пункт.

import asyncio

import aiohttp
from bs4 import BeautifulSoup as BS

BASE_URL = "https://nubip.edu.ua/"


async def main():
    async with aiohttp.ClientSession() as session:
        async with session.get(BASE_URL) as response:
            r = await aiohttp.StreamReader.read(response.content)
            soup = BS(r,"html.parser")

            items = soup.find_all("div",{"class": "block"})

            for item in items:
                time  = soup.find("p", {"class": "datetime"})
                span  = soup.find("span", {"class": "b-selection-em"})
                print(time)
                print(span)
if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

Вывод

<p class="datetime"><span>5 лютого 2023 року</span></p>
<span class="b-selection-em">НУБіП піднявся в міжнародному рейтинзі WEBOMETRICS і посів четверте місце в Україні!</span>
<p class="datetime"><span>5 лютого 2023 року</span></p>
<span class="b-selection-em">НУБіП піднявся в міжнародному рейтинзі WEBOMETRICS і посів четверте місце в Україні!</span>
<p class="datetime"><span>5 лютого 2023 року</span></p>
<span class="b-selection-em">НУБіП піднявся в міжнародному рейтинзі WEBOMETRICS і посів четверте місце в Україні!</span>

python beautiful-soup

Источник: Stack Overflow на русском

Answer 1

▲ 1

Есть ещё один вариант парсинга, но он сложнее по структуре и иногда может не видеть данные из html-данных сайта. Вот пример парсинга евро:

from bs4 import BeautifulSoup
import requests
eur = 'https://quote.rbc.ru/ticker/59090'
response = requests.get(eur)
bs = BeautifulSoup(response.text, "lxml")
euro = bs.find('span', class_='chart__info__sum')
print(euro.text) # .text выполняет функцию выделения только текста

Результат:

Answer 2

▲ 0

Например так:

items = soup.find(id="news-block").find_all(attrs={"class": "item"})

for item in items:
    time, *span = item.stripped_strings
    link = item.a['href']
    print(time)
    print(' '.join(span))
    print(link)

Как правильно парсить страницу с помощью BeautifulSoup?

Ответы