DataCol – универсальный парсер данных в Интернете

Сегодня на повестке дня проблема парсинга данных в Интернете. Если кто-то еще не знает, то парсинг – это процесс автоматизированного сбора данных/контента с поисковых систем, сервисов, веб-сайтов и Интернет-магазинов. Соответственно, парсер – это программа (скрипт), которая занимается автоматическим сбором данных в Интернете, их преобразованием и сохранением в необходимом формате.

На сегодняшний день, в сети Интернет можно найти огромное количество парсеров:

  • SEO-парсеры (парсер выдачи поисковых систем, сервиса whois, яндекс-каталога)
  • Парсеры Интернет-магазинов и торговых площадок (ЯндексМаркет, Ebay и т.п.)
  • Парсеры контактов из 2gis.ru и Яндекс.Карт
  • Парсеры контента – текстов, новостей и сообщений
  • Парсеры сайтов с объявлениями (Avito и т.п.)

Существуют как платные, так и бесплатные парсеры, как узкоспециализированные, так и достаточно универсальные с широким набором возможностей, как простые, так и достаточно сложные в настройке.

Из всего этого многообразия, можно выделить две основные группы, на которые можно разделить все парсеры.

К первой группе относятся бесплатные, не всегда стабильно работающие, узкоспециализированные парсеры. Как правило, к ним тяжело найти документацию, в ряде случаев она отсутствует вовсе. Про одного из представителей данной группы я рассказывал ранее, в статье YandexParser – парсер поисковой выдачи.

Ко второй группе относятся платные парсеры, отличающиеся высокой надежностью и стабильностью работы. В большинстве случаев они весьма универсальны и позволяют решать не одну конкретную задачу. По каждому из них можно найти подробную документацию с видеоуроками, и, в случае необходимости, обратиться с вопросом к разработчикам. Их средняя стоимость порядка 100$. Про один из таких парсеров пойдет речь дальше.

DataCol – универсальный парсер данных

Парсер DataCol

Обычная цена на программу-парсер – 89$. Временами бывают акции и скидки. На момент написания статьи (25.11.2013) действует акция в связи с предстоящими новогодними праздниками, цена снижена до 59$. После оплаты программы, Вам будет выслан ключ для активации на электронный адрес, с которого производилась оплата. Ключ позволяет активировать программу на одном компьютере 1 раз, т.е. 1 лицензия = 1 ПК.

DataCol – это универсальный парсер данный в сети Интернет с широким спектром возможностей. Стоит отметить то, что DataCol позволяет не только парсить различные типы данных, но и обрабатывать их с последующим автоматическим экспортом в самые популярные CMS напрямую или через соответствующие плагины.

В плане обработки DataCol может:

  • Осуществлять перевод через Google Translate
  • Производить уникализацию через Synonyma.ru
  • Производить уникализацию с помощью TheBestSpinner

Последняя редакция программы может экспортировать данные в популярные CMS и блог-платформы: Webasyst, Virtuemart, Opencart, WordPress, Joomla, DLE, Instant, Ucoz, Blogspot, Livejournal. Для некоторых из них может потребоваться специальный плагин, который не входит в стоимость программы-парсера и приобретается отдельно. Стоимость одного плагина – 15$. Кроме экспорта в CMS плагины могут выполнять ряд других полезных при парсинге действий.

Возможности программы DataCol

Возможности парсера DataCol весьма обширны, если взглянуть на список задач, с которыми он может справиться:

  • Парсинг любых интернет-магазинов и торговых площадок, в том числе Яндекс.Маркета и Ebay
  • Парсинг электронных адресов и контактов из 2gis и Яндекс.Карты
  • Парсера социальной сети ВКонтакте
  • Парсинг контента с новостных и обычных сайтов, блогов и форумов
  • Парсинг по заранее подготовленному списку url-адресов
  • Парсинг по ключевым словам/запросам

По большому счету, DataCol может спарсить все, что выводится на сайте с использованием каких-либо шаблонов или идентичных/одинаковых/повторяющихся html-конструкций.

Минусы программы-парсера

За все время тестирования демо-версии программы возникли две проблемы, а если точнее, то заминки, с которыми можно разобраться, потратив небольшое количество времени:

  • Проект не стоит на месте и интерфейс программы время от времени видоизменяется, поэтому видео-обзоры и видео-уроки на сайте разработчиков теряют свою актуальность. Это не критично, но на первоначальном этапе освоения программы доставляет неудобство
  • В последней, на момент написания статьи, редакции программы DataCol не работает парсер выдачи поисковой системы Яндекс, настроенный по умолчанию. Возможно, это связано с тем, что Яндекс сейчас проводит какие-то работы, да так, что большинство онлайн-сервисов по сбору позиций сайтов испытывают трудности со сбором данных в Яндекс

Резюмируя все выше написанное можно с уверенностью сказать, что DataCol действительно универсальный парсер данных, который может решать большинство задач, встающих перед веб-мастером и специалистом по продвижению сайтов. И если для каких-то разовых работ можно поискать бесплатные версии узкоспециализированных парсеров, то для постоянной работы имеет смысл потратиться на покупку платной версии парсера DataCol. Кроме того, лицензия оплачивается раз и на всегда, и ее не надо продлевать через год.

Поделится с друзьями: