Памятка для желающих заказать парсинг

«Мне надо спарсить сайт xxxxxx.ru. Сколько это будет стоить?» - именно с такой фразой ко мне обращаются все до единого заказчики. Отличие только в названии сайта.

Для того что бы понять объем работ и назвать стоимость мне надо знать следующее:

1) какую именно информацию со страниц надо собирать. Должно быть четко перечислено что именно собирается. И не только перечислено , но и отмечено на скриншоте страницы.

2) С каких именно страниц эта информация должна собираться. Это какой-то фиксированный перечень страниц либо это все страницы сайта (или какого-то подраздела) сайта. Какое ориентировочное количество страниц.

3) Какая периодичность сбора информации. Это единоразовая акция, или должно происходить на регулярной основе. Сколько времени отводится на 1 цикл.

4) Место где будет запускаться парсер - это ваш существующий сайт (не всегда возможно), ваша площадка, моя площадка.

5) Требуется ли интеграция (со стороны парсера) с вашим сайтом и какая именно. Или данные вам нужны для "оффлайн" аналитики

6) Требуется ли проходить аутентификацию (вводить логин/пароль) для доступа к требуемой информации.

Все вышеперечисленное повлияет на объем работ и стоимость.

Но есть еще факторы, которые заказчик, как правило не в состоянии оценить. К ним относятся:

1) место генерации страниц сайта. Сгенерированы ли они на сервере или непосредственно в браузере при помощи javascript.

2) какие методы противодействия парсингу применяются со стороны сайта. Это могут быть:

  • ограничения по количеству обращений с IP/логина
  • отслеживание автоматизации действий
  • внедрение технологий fingerprint
  • борьба с proxy
  • предоставление контента в виде изображений
  • предоставление контента после «активных» действий на сайте, например после клика, наведения мыши и т.п.
  • искажение HTML структуры сайта приводящее к усложнению парсинга.

Конечно далеко не все сайты применяют хоть какие-то меры противодействия, но наиболее популярные сайты - «авито», «яндекс», проекты «сбер» ... - применяют их по-полной.

Задайте мне вопрос

Почта нужна для того что бы я с вами связался
Телефон нужен для оперативной связи. Или телефон, или почта должны быть указаны обязательно.
captcha Подтвердите что вы Homo sapiens а не бот какой-то. Решите эту простенькую арифметическую задачку и напишите ответ (число).