Автоматический парсинг со всех страниц сайта

Question

Автоматический парсинг со всех страниц сайта

Рейтинг: 1Ответов: 0Опубликовано: 28.01.2015

Привет, уважаемые участники форума!

Решил сделать автоматический парсинг со всех страниц сайта. Вводишь любой url, и все дальнейшее (считывание ссылок и переходы по ним) происходит внутри сайта. Предмет поиска и исследования - ссылки.

Я нарисовал блок-схему, где постарался сам себе объяснить порядок действий (прошу, не закидывайте помидорами). :)

Блок-схема:

alt text

Теперь о том, как все происходит.
Мы имеем два массива - array2 и array3. Архитектура каждого из них одинакова: первый столбец (url) содержит адрес текущей страницы, второй (link) - href ссылку на другую страницу. В array2 складываем все ссылки страницы, в array3 - все отработанные записи array2.

Цель: пройти все ссылки из записей array2 и выйти из цикла.

Прилагаю схему переходов:

alt text

Основная концепция схему сводится к тому, что в array2 собираются с каждой посещенной страницы (если ее нет в этом массиве) ссылки, что называется, "наперед" - для будущих переходов. Для перехода берется ссылка из самой первой записи array2, при этом эта запись (она содержит url той страницы, где размещена ссылка, и href ссылки) после произведенного перехода переносится в array3 и становится использованной.

Каждый раз открывая страницу, мы производим проверку:
- юзан ли этот url;
- есть ли он в оперативной "обойме" array2.

Приглашаю к конструктивному диалогу. :)

Да, и еще. Код для парсинга ссылок на текущей странице и сливания их в массив есть. Осталось додумать все остальное.

автоматизация синтаксический-анализ jsoup

Источник: Stack Overflow на русском

Автоматический парсинг со всех страниц сайта

Ответы