Защита сайта от воровства информации: как определить робота?

Рейтинг: 2Ответов: 3Опубликовано: 23.05.2011

Оптимальная защита - это блокирование парсеров и возможности копирования информации с сайта.

Второе - легко решаемая задача, а вот как можно определить, что на сайт пришел парсер\бот? При заходе на сайт пользователь оставляет некоторую информацию о браузере и свой IP, по этому первым делом можно запретить вход на сайт, если браузер не передал ключи (или как называется то, что браузер передает при подключению к серверу?), но ведь подавляющее кол-во парсеров работает именно через браузер.

Собственно вопрос - как в теории можно решить эту проблему?

Ответы

▲ 5Принят

Парсер ничем не отличается от браузера. Единственно что можно проверить - это скорость перехода по страницам, да и это можно обойти...

собственно ответ - на 100% определить бота никак нельзя.

все суждения строятся на некоторых эвристиках и предположениях.

▲ 2

Защита информации только от пользователя, если на js сделать можно. Но сам код страницы никак не защитишь. Хотя если какой-то бот пытается слизать вашу страницу, то можно попробовать сначала выдать скелет страницы, и уже потом подгружать контент на ajax, но и о поисковиках можно забыть) ajax пока не индексируется вроде.

▲ 2

Можно текстовую информацию перевести в графический вид. Т.е. отображать как картинку. Плюсы - никто не сможет тупо скопировать текст. А если подшаманить с watermark, то и OCR возможно не поможет. С другой стороны, как пользователь, я просто не стал бы на такой сайт заходить, т.к. мне важен комфорт. А в случае отображения текста в виде картинки его нет - текст ни скопировать, ни увеличить, да и медленно все отображаться будет. Но эта методика возможна в случае, если необходимо скрыть от поисковиков и запретить прямой копи-паст какой-либо чувствительно информации. Например, моб. телефон продавца на барахолке.