Инструкция по внедрению новых сервисов в парсер Abaddon

Статья по внедрению новых сервисов в парсер Abaddon. Пример создания пресета для парсинга поисковой выдачи.

Для начала создания пресета необходимо перейти в редактор, он находится на форме парсера, под выбором сервиса. Кстати говоря, рядом с ним находится кнопка редактирования пресета, она работает только на пользовательские пресеты, изменить что-то в стандартных пресетах невозможно.

Обучение будет происходить на российской поисковой системе - Mail.ru. Перейдём на сайт go.mail.ru и введем любой тестовый запрос, желательно английскими буквами, чтобы было проще ориентироваться в адресной строке.

Пример тестового запроса.

Далее необходимо перейти на следующие страницы и понять, какое число в адресной строке меняется и отвечает за них. При переходе на вторую страницу мы получаем запрос go.mail.ru/search?fr=main&q=test&sf=10, а при переходе на третью - go.mail.ru/search?fr=main&q=test&sf=20, таким образом понимая, что за страницы отвечает часть &sf= и число после знака равно.

Вводим запрос в редактор и заменяем наш тестовый запрос (test) на идентификатор запроса - #text#, а число, отвечающее за страницы на идентификатор страниц - #page#, остальные значения в запросе, если таковые имеются, можно оставить неизменными. Таким образом мы получаем запрос для программы - https://go.mail.ru/search?fr=main&q=#text#&sf=#page#0

Пример составления запроса для go.mail.ru

Далее нам необходимо составить регулярное выражение. Пример базового выражения - символы до нужного значения (.*?) символы после нужного значения. Для того, чтобы понять, какие символы нужно подставить, переходим в код страницы и ищем одну из ссылок, которые получили по тестовому запросу. Таким образом для поисковой системы go.mail.ru мы составляем следующее регулярное выражение - "url":"(.*?)"

Пример поиска в коде страницы.
Финальный результат создания пресета для go.mail.ru

Для завершения создания пресета остается заполнение дополнительных полей, а именно UserAgent и Headers. Их можно оставить стандартными, большинство поисковых систем не будут конфликтовать при их использовании. Данные поля предназначены скорее для профессионалов, составляющих пресеты для сложных проектов.

Финальный шаг - заполнение названия и сохранение. После этого редактор закроется, а пресет можно будет выбрать на главной форме. Любой пользовательский пресет можно будет отредактировать или удалить в нужный момент. Обратите внимание, что при обновлении программы пользовательские пресеты должны быть сохранены в папке System\Parser, которая находится рядом с программой.

Видео с примером из статьи

Внедрение новых сервисов в Abaddon Parser (пример из инструкции)