«Мне надо спарсить сайт xxxxxx.ru. Сколько это будет стоить?» - именно с такой фразой ко мне обращаются все до единого заказчики. Отличие только в названии сайта.
Для того что бы понять объем работ и назвать стоимость мне надо знать следующее:
1) какую именно информацию со страниц надо собирать. Должно быть четко перечислено что именно собирается. И не только перечислено , но и отмечено на скриншоте страницы.
2) С каких именно страниц эта информация должна собираться. Это какой-то фиксированный перечень страниц либо это все страницы сайта (или какого-то подраздела) сайта. Какое ориентировочное количество страниц.
3) Какая периодичность сбора информации. Это единоразовая акция, или должно происходить на регулярной основе. Сколько времени отводится на 1 цикл.
4) Место где будет запускаться парсер - это ваш существующий сайт (не всегда возможно), ваша площадка, моя площадка.
5) Требуется ли интеграция (со стороны парсера) с вашим сайтом и какая именно. Или данные вам нужны для "оффлайн" аналитики
6) Требуется ли проходить аутентификацию (вводить логин/пароль) для доступа к требуемой информации.
Все вышеперечисленное повлияет на объем работ и стоимость.
Но есть еще факторы, которые заказчик, как правило не в состоянии оценить. К ним относятся:
1) место генерации страниц сайта. Сгенерированы ли они на сервере или непосредственно в браузере при помощи javascript.
2) какие методы противодействия парсингу применяются со стороны сайта. Это могут быть:
- ограничения по количеству обращений с IP/логина
- отслеживание автоматизации действий
- внедрение технологий fingerprint
- борьба с proxy
- предоставление контента в виде изображений
- предоставление контента после «активных» действий на сайте, например после клика, наведения мыши и т.п.
- искажение HTML структуры сайта приводящее к усложнению парсинга.
Конечно далеко не все сайты применяют хоть какие-то меры противодействия, но наиболее популярные сайты - «авито», «яндекс», проекты «сбер» ... - применяют их по-полной.