Автоматический парсинг со всех страниц сайта
Привет, уважаемые участники форума!
Решил сделать автоматический парсинг со всех страниц сайта. Вводишь любой url, и все дальнейшее (считывание ссылок и переходы по ним) происходит внутри сайта. Предмет поиска и исследования - ссылки.
Я нарисовал блок-схему, где постарался сам себе объяснить порядок действий (прошу, не закидывайте помидорами). :)
Блок-схема:
Теперь о том, как все происходит.
Мы имеем два массива - array2 и array3. Архитектура каждого из них одинакова: первый столбец (url) содержит адрес текущей страницы, второй (link) - href ссылку на другую страницу. В array2 складываем все ссылки страницы, в array3 - все отработанные записи array2.
Цель: пройти все ссылки из записей array2 и выйти из цикла.
Прилагаю схему переходов:
Основная концепция схему сводится к тому, что в array2 собираются с каждой посещенной страницы (если ее нет в этом массиве) ссылки, что называется, "наперед" - для будущих переходов. Для перехода берется ссылка из самой первой записи array2, при этом эта запись (она содержит url той страницы, где размещена ссылка, и href ссылки) после произведенного перехода переносится в array3 и становится использованной.
Каждый раз открывая страницу, мы производим проверку:
- юзан ли этот url;
- есть ли он в оперативной "обойме" array2.
Приглашаю к конструктивному диалогу. :)
Да, и еще. Код для парсинга ссылок на текущей странице и сливания их в массив есть. Осталось додумать все остальное.