Semalt предоставляет результаты испытаний веб-инструментов

Каждый пользователь сталкивается с двумя вариантами, когда он хочет использовать веб-инструменты. Они либо используют готовый веб-скребок, либо пользовательский скребок. В то время как нестандартный скребок является лучшим вариантом, многие люди избегают его из-за его высокой стоимости. Инструмент должен быть разработан с учетом вашего бизнеса и предпочтений, поэтому он требует много работы.

С другой стороны, готовые веб-скребки слишком универсальны, поскольку они предназначены для общих задач веб-очистки. Они, как правило, лучше справляются с одними веб-проектами и делают плохую работу с другими. Чтобы помочь вам сделать правильный выбор, некоторые веб-скребки были подвергнуты тщательным веб-тестам, и результаты были показаны ниже.

Критерии испытаний

Веб-скребки были протестированы на следующих распространенных задач извлечения данных. Они были проверены на их способность обрабатывать табличные отчеты, текстовые списки и формы входа. Кроме того, веб-скребки были также протестированы на их способность извлекать данные из динамических веб-страниц, построенных на AJAX. Обычно это одна из самых сложных задач для многих веб-скребков. Их способность обрабатывать капчу была также проверена. Наконец, они были проверены на их способность обрабатывать макет блока.

Результаты теста

Были протестированы следующие инструменты для удаления веб-содержимого: Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor и Easy Web Extractor.

Результаты показали, что Content Grabber является лучшим, поскольку он отлично работает во всех тестируемых областях. Следовательно, он получил самый высокий средний рейтинг. Также было замечено, что все инструменты для очистки веб-страниц могут очищать формы входа в систему, а также очищать данные со веб-страниц, созданных с помощью AJAX. Так что если по этим двум причинам вам нужен веб-скребок, вы можете выбрать любую из них. Все они очень хорошо справились с обеими задачами.

Следующим по производительности Content Grabber является Visual Web Ripper. Он показал хорошие результаты во всех областях, но не так хорошо, как Content Grabber, поэтому получил средний рейтинг 4,5. Следующий веб-инструмент - Helium Scraper. Его производительность почти такая же, как у Visual Web Ripper. Единственная проблема с Helium Scraper - его низкая производительность при работе с макетом блока.

Согласно результатам теста, инструменты веб-скребка выполнялись в следующем порядке: Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor и Easy Web Extractor, которые показывают худшую производительность ,

Вывод

Учитывая результаты тестов, проанализированные выше, Content Grabber получил оценку 5 во всех категориях тестов. Итак, это, очевидно, лучший. Возможно, вам придется попробовать это тоже. К сожалению, два веб-скребка вышли из теста по разным причинам. Разработчики Web Data Extractor и WebHarvy вытащили свои продукты из теста.

Несмотря на то, что они не приняли участие в тесте, кое-что из них было изучено. WebHarvy предназначен для извлечения данных из хорошо отформатированных нумерованных списков, а Web Data Extractor предназначен исключительно для сбора электронных писем, URL-адресов и т. Д.

mass gmail