Цитата |
---|
Jack SparroW пишет:
В гугле сменилась верстка, вы внесли эти обновления в парсер? |
#76
28 Января 2020 19:39
|
#77
7 Февраля 2020 08:48
Сборник рецептов #38: парсер Яндекс.Кью, парсер сайтов из Яндекс.Радар и определение типов сайтов
38-й сборник рецептов. В нем опубликованы: парсер сервиса вопросов-ответов Яндекс.Кью, парсер для сбора сайтов из Яндекс.Радара, а также парсер для определения типа сайта. Парсер Яндекс Кью Яндекс.Кью - это сервис вопросов-ответов, запущенный в конце 2019 года. Он объединил в себе несколько других сервисов, поэтому уже на момент запуска обладал большой базой информации. Мы не могли оставить это просто так и публикуем парсер для сбора данных из этого сервиса. ![]() Парсинг сайтов из Яндекс.Радар Яндекс.Радар - это сравнительно новый сервис Яндекса, который в отчасти заменил ранее популярный Яндекс.Каталог. Это большой каталог популярных в рунете сайтов с данными о их посещаемости и некоторой информацией о посетителях. Мы подготовили парсер, с помощью которого можно собрать список сайтов с необходимыми фильтрами. ![]() Определение типа сайта по Яндекс Радару И еще один парсер для Яндекс.Радар от нашего пользователя. С его помощью можно определять типы сайтов, если они есть в базе Яндекс.Радара. ![]() Еще больше различных рецептов в нашем Каталоге! Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов ![]() |
#78
19 Февраля 2020 17:16
Сборник статей #11: анализ содержимого картинок, добавление ссылок в индекс Google и поиск RSS лент
11-й сборник статей, в котором рассказано, как в А-Парсере анализировать содержимое картинок, добавлять страницы своих сайтов в индекс Google и искать RSS ленты необходимой тематики. Фильтрация картинок по их содержимому В этой статье на примере поиска картинок с определенным содержимым, показана работа с Google Vision. С помощью "компьютерного зрения" для каждого изображения присваивается набор меток, который описывает содержимое. ![]() Инструкция по использованию Google Indexing API В данной статье рассмотрена работа с Google Indexing API, который позволяет владельцам сайтов напрямую уведомлять Google о добавлении или удалении страниц. Таким образом ваш сайт будет быстрее просканирован Google, что способствует повышению качества трафика. ![]() Поиск и сбор rss лент В этой статье рассмотрен простой пример поиска ссылок на rss ленты по заданной тематике. Решение состоит из 3-х пресетов, каждый из которых отвечает за определенный этап работы. ![]() Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки ![]() Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники статей ![]() |
#79
3 Марта 2020 08:16
1.2.799 - новый парсер для поиска картинок, улучшения в существующих парсерах
![]() Улучшения * Добавлен новый парсер SE::Yandex::ByImage - поиск картинок в Яндексе по ссылке * В Social::Instagram::post добавлена возможность собирать ссылки на локации * В Util::YandexRecognize добавлена поддержка сессий * В SE::Yandex::SQI добавлена возможность определять считается ли домен "официальным" * Улучшения в HTML::EmailExtractor для более качественного сбора почт * В SE::Google::Trends обновлен и значительно расширен список регионов * Из SE::Seznam удален парсинг $related в связи с тем, что связанные ключевые слова больше не выводятся на странице выдачи Исправления в связи с изменениями в выдаче * Исправлен парсинг $totalcount, рекламы и мобильной выдачи в парсерах Google * Исправлен парсинг анкоров и сниппетов в SE::Yandex * Исправлены парсеры SerpStat * SE::Yandex::Direct, SE::Bing::LangDetect , Rank::Ahrefs, SE::Bing , SE::Startpage , Shop::eBay Исправления * Исправлен выбор страны в SE::Yahoo * Исправлен баг с декодированием ссылок в SE::Google::Images * В режиме -newnode исправлены проблемы с кодировкой и оптимизировано потребление памяти ![]() |
#80
16 Марта 2020 15:59
Парсинг booking.com с помощью A-Parser
В этом видео уроке рассмотрен парсинг ресурса booking.com, получение результатов поиска квартир и отелей на сайте. Подробную информацию о них будем получать при помощи парсера ![]() Net::HTTP ![]() В видео рассмотрено * Пользование разделом тестового парсинга * Переход по страницам пагинации * Проверка наличия определенного контента на странице сайта * Использование регулярных выражений * Применение конструктора результатов (декодирование HTML сущностей) * Применение шаблонизатора Template Toolkit в формате результата: * Использование инструмента $tools.CSVline * Циклическая обработка директивой FOREACH * Виртуальный метод .match * Фильтры: .remove, .collapse, .replace Полезные ссылки * Net::HTTP - https://a-parser.com/wiki/net-http/ * Тестовый парсинг - https://a-parser.com/wiki/test-parsing/ * Template Toolkit - https://a-parser.com/wiki/template-toolkit/ * tools.CSVline - https://a-parser.com/wiki/template-tools/#tools-csvline-простое-создание-csv-файлов * Готовый пресет: https://a-parser.com/resources/383/ Оставляйте комментарии и подписывайтесь на наш канал на YouTube! ![]() |
#81
27 Марта 2020 06:41
Сборник рецептов #39: бот-опросник, парсер hotline.ua и copart.com
Представляем вашему вниманию 39-й сборник рецептов, в который вошли: * телеграмм бот опросник * парсер агрегатора цен hotline.ua * парсер аукционов транспортных средств copart.com Телеграмм бот опросник Данный бот позволяет организовать ежедневный опрос сотрудников, при этом список вопросов можно гибко менять. Все настройки берутся из Google таблицы, а также туда пишутся ответы по каждому сотруднику. Также, этот пример демонстрирует возможность создания телеграмм бота на базе A-Parser и работу с Google таблицами. ![]() Парсер hotline.ua hotline.ua - это самый большой агрегатор цен в Украине. С его помощью можно мониторить и анализировать цены на товары у конкурентов или искать наиболее выгодные предложения среди большого количества интернет-магазинов. ![]() Парсер copart.com Copart является одним из крупнейших интернет аукционов, специализирующихся на продаже новых и б/у автомобилей. По официальной информации каждый день на аукционе выставляется на продажу более 150 000 транспортных средств. ![]() Еще больше различных рецептов в нашем Каталоге! Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов ![]() |
#82
8 Апреля 2020 09:15
Видео урок: Именование файлов результатов
Мы начинаем публикацию серии коротких видеоуроков, каждый из которых будет посвящен какому-то одному функционалу. И в этом уроке будут рассмотрены варианты формирования имени файла результата. ![]() В видео рассмотрено: * Нумерация файла результата в соответствии с запросами * Нумерация файла результата + часть имени запроса * Именование файла результата по запросу, если запрос линк Полезные ссылки: * Формат результата - https://a-parser.com/wiki/tips-v1-1-0/#Формат-результата * Шаблонизатор Template Toolkit - https://a-parser.com/wiki/template-toolkit/ * Метод replace - http://template-toolkit.ru/Manual/VMethods.html Оставляйте комментарии и подписывайтесь на наш канал на YouTube! ![]() |
#83
16 Апреля 2020 18:21
1.2.852 - новый парсер для Google Keyword Planner, Native NodeJS, множество исправлений и улучшений
![]() Улучшения * Добавлен парсер SE::Google::KeywordPlanner - собираются списки подсказок и варианты ключевых слов - для каждого варианта парсится среднее кол-во запросов в месяц, конкуренция, объемы поиска, а также минимальная и максимальная ставки - присутствует возможность указывать несколько ключевых слов в запросе * В SE::Yandex::ByImage добавлена функция Get full links to page, которая позволяет получать реальные ссылки на страницы * В SE::Yandex::SQI добавлены переменные сбор количества отзывов и оценок, а также рейтинга * Улучшена проверка правильности разгадывания каптчи в парсерах Яндекса * Автоматическое увеличение лимитов на ОС Linux * Улучшена работа с регулярными выражениями * При бане прокси в лог задания теперь выводится более детальная информация * Native NodeJS переведена из стадии альфы в бету, проведено множество оптимизаций, за счет чего в большинстве сценариев это дает повышение максимальной скорости в 1.5-2 раза, а также уменьшение потребление памяти в 2-4 раза - Начиная с 1.2.822 все бета версии имеют включенный Native NodeJS, стабильные версии выходят с включенным oldnode * Native NodeJS: добавлена экспериментальная поддержка HTTP/2 * Native NodeJS: обновление Node.js до актуальной версии * JS парсеры: добавлена опция allow_dangerous_node_modules, подробнее тут Исправления в связи с изменениями в выдаче * Исправлено скачивание каптчи в SE::Yandex * Исправлен Rank::Ahrefs: в $anchors переменная $bl заменена на $domains * В SE::Google исправлены: - парсинг mobile news - баг с дублированием ссылок в выдаче - парсинг анкоров в рекламе, связанных ключевых слов, а также первый результат в выдаче не всегда попадал в serp * В SE::Google::Images исправлен парсинг gif * Исправлен SE::Yandex::ByImage, убраны flat переменные $height и $width * SE::Yandex, SE::Google::ByImage, SE::DuckDuckGo, Social::Instagram::Post, Rank::Ahrefs, Rank::Bukvarix::Domain, SE::MailRu, SE::Yandex::Suggest Исправления * Исправлена работа Net::Whois с доменами 3го уровня, а также улучшена проверка получаемого ответа * Исправлена работа Extra query string в SE::Bing * Исправлена работа Rank::SEMrush и Rank::SerpStat::Keyword при получении ответа без данных * Исправлен баг с типами переменных * Исправлена ошибка, при которой запросы ошибочно считались неудачными при постановке задания на паузу * Исправлена работа Bypass Cloudflare * Исправлен динамический лимит потоков * Исправлена ошибка при использовании Request delay * Исправлено предупреждение о превышении лимита в Поле запросов * Исправлена работа $tools.task.id в имени файла результата * JS парсеры: исправлены получение сессий и работа http2 (баг появился в одной из предыдущих версий) * JS парсеры: исправлено определение кодировки страницы * Native NodeJS: исправлено поведение при некоторых ошибках * Native NodeJS: исправлена проблема при обновлении A-Parser на OS Windows * Native NodeJS: исправлена работа save_to_file, а также еще ряд ошибок * Native NodeJS: исправлена работа SOCKS5 с авторизацией * Native NodeJS: исправлена подстановка данных после Конструктора запросов ![]() |
#84
28 Апреля 2020 12:06
Сборник рецептов #40: посещаемость организаций, SSL сертификаты, ikea и анализ доменов
Представляем вашему вниманию 40-й сборник рецептов, в который вошли: * парсер данных о посещаемости организаций * парсер данных о SSL сертификатах * парсер товаров на ikea.com * комплексный пресет для анализа доменов по ряду характеристик * способ извлечения доменов из ссылок без фактического захода на страницу Посещаемость в Google Maps В поисковой выдаче Google для определенных запросов отображается расширенный сниппет с информацией об организации из Google карт. В частности, обычно отображается информация о посещаемости в разрезе дней недели. Представляем парсер, который собирает данные о посещаемости. ![]() Данные по SSL сертификату Данный парсер собирает информацию о SSL сертификате сайта. В качестве источника данных используется сторонний ресурс. ![]() Парсер ikea.com Парсер данных из ikea.com, который позволяет собирать различную информацию о товарах. Согласно данным из Википедии, ikea - это одна из крупнейших в мире торговых сетей по продаже мебели и товаров для дома. ![]() Кроме этого: * Получение доменов из ссылок без захода на страницу * Информация о сайте (домене) Еще больше различных рецептов в нашем Каталоге! Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов ![]() |
#85
8 Мая 2020 22:51
Видео урок: Сохранение результатов в несколько файлов используя переменные, массивы и условия
В этом видео уроке рассмотрены способы сохранения результатов в несколько файлов, используя переменные и массив, при определенных условиях. ![]() В видео рассмотрено: * Вывод результатов в разные файлы с разными именами используя переменные * Вывод результатов для каждого файла отдельно по определенному условию * Вывод результатов для двух файлов с условием, используя массив Полезные ссылки: * https://a-parser.com/wiki/template-toolkit/ - Шаблонизатор Template Toolkit * http://template-toolkit.ru/Manual/Directives.html#Uslovnaya_obrabotka - условная обработка (IF, UNLESS, ELSIF, ELSE) * http://template-toolkit.ru/Manual/Directives.html#Ciklicheskaya_obrabotka - циклическая обработка FOREACH * https://a-parser.com/wiki/task-tester/ - тестировщик заданий Оставляйте комментарии и подписывайтесь на наш канал на YouTube! ![]() |
#86
15 Мая 2020 22:43
Разработчикам A-Parser огромный респект! Пользуюсь сервисом уже несколько месяцев, заменяет мне кучу других сервисов, которыми я раньше пользовался. Снимаю позиции по сайтам, качаю вордстат в больших объёмах и паршу магазины! И всё это в одном сервисе! Очень доволен.
|
#87
19 Мая 2020 02:44
Сборник рецептов #41: Google таблицы, отправка писем и авторизация с помощью puppeteer
Представляем 41-й сборник рецептов, который полностью посвящен использованию различных Node.js модулей в A-Parser. * Работа с Google таблицами * Отправка писем из А-Парсера * Авторизация с помощью puppeteer Сохранение результатов в Google SpreadSheets Один из часто задаваемых вопросов в поддержке, это вопрос о возможности писать результаты прямо в Google Таблицы. Поэтому мы подготовили небольшой пример парсера, который демонстрирует такую возможность. ![]() Отправка почтовых писем Еще одна возможность, о которой часто спрашивают наши пользователи - отправка писем. Такой функционал может быть использован для уведомлений о различных событиях в заданиях, в том числе о завершении их работы. Поэтому мы также подготовили пример, демонстрирующий отправку писем прямиком из А-Парсера. ![]() Авторизация на GitHub с использованием puppeteer Еще один пример по заявкам наших пользователей, демонстрирующий загрузку страницы, авторизацию на ресурсе и простую навигацию. ![]() Еще больше различных рецептов в нашем Каталоге! Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов ![]() |
#88
11 Июня 2020 19:55
1.2.912 - обновление NodeJS, повышение производительности, адаптация к изменениям в рекаптчах
![]() Мы завершили переход на NodeJS в качестве основного движка для парсеров и представляем новую стабильную версию 1.2.912 с поддержкой NodeJS 14.2.0. Данное обновление сочетает в себе множество улучшений, включая повышение производительности, уменьшение потребления памяти, полностью новый сетевой стек, а также поддержку нативных NodeJS модулей, позволяющую использовать всю мощь каталога npmjs в A-Parser'е Также в данное обновление включены изменения по работе с ReCaptcha2 в парсере Google, наша команда одна из первых нашла решение по обходу новой версии рекаптчи и протестировала его совместно с сервисом RuCaptcha, за что им отдельный респект. На данный момент корректный обход каптчи протестирован с RuCaptcha, Anti-Captcha, XEvil и CapMonster. Помимо этого было произведено множество оптимизаций в ядре A-Parser'а, значительно увеличилась производительность при использовании большого числа заданий или больших списков прокси. Парсер Rank::CMS был полностью переписан и стабилизирован, добавлена поддержка нового формата apps.json и поддержка пользовательских правил. Улучшения * NodeJS обновлен до v14.2.0, v8 до 8.1 * Добавлена поддержка параметра data-s в рекаптчах для SE::Google, также добавлена опция ReCaptcha2 pass proxy * Увеличен лимит потоков до 10000 для OS Windows * Значительно улучшена производительность при большом числе активных прокси и/или заданий, полностью переписан стек по работе с прокси, оптимизирована работа с большими списками * Добавлен новый парсер Rank::KeysSo * Полностью переписаны на JS SE::Yahoo::Suggest, Rank::Alexa::API и Rank::Archive * Улучшена производительность при использовании регулярных выражений, а также улучшена совместимость * В SE::Google::KeywordPlanner добавлено автоматическое получение токена * В SE::Bing добавлена возможность парсить ссылки на кэшированные страницы, а также добавлена возможность парсить мобильную выдачу * В парсере Util::ReCaptcha2 при выборе провайдера Capmonster или Xevil теперь необязательно указывать Provider url * В SE::Google::Trends добавлена возможность указывать произвольный диапазон дат * В Rank::CMS добавлен выбор движка регулярок и поддержка собственного файла с признаками * В SE::Yandex::ByImage добавлена опция Don't scrape if no other sizes, которая позволяет отключить сбор результатов, если искомой картинки нет в других размерах * [NodeJS] Добавлена защита от бесконечных циклов и долгих регулярок * [NodeJS] Исправлена работа this.cookies.getAll() * [JS парсеры] Добавлена опция follow_meta_refresh для this.request * [JS парсеры] Добавлена опция bypass_cloudflare для this.request * [JS парсеры] Underscore заменен на Lodash * [JS парсеры] В логе добавлена пометка при вызове других парсеров * [JS парсеры] Использование предыдущего прокси после запроса к другому парсеру * [JS парсеры] Добавлен метод destroy() Исправления в связи с изменениями в выдаче * Множество исправлений в SE::Google * Исправлен SE::Youtube, в т.ч. парсинг по тегам * Исправлен сбор ссылок в Shop::eBay * Исправлен парсинг телефонов в Maps::Google * Исправлена работа с каптчами в SE::Yandex::ByImage * В Rank::Social::Signal удалена переменная $facebook_comment в связи с неактуальностью * SE::Startpage, Rank::Linkpad, Social::Instagram::post, SE::Yandex::Translate Исправления * Исправлен баг, из-за которого игнорировался выбранный проксичекер * Исправлена работа функций Decode HTML entities и Extract domain в Конструкторе результатов * Исправлена проблема с определением кодировки * Исправлена ошибка использования $tools.query * Исправлен баг в Rank::MajesticSEO при котором использовались все попытки при отсутствии результатов * Исправлена работа http2 * Исправлена ошибка, когда парсер падает из-за невозможности писать в alive.txt * Исправлено разгадывание каптч в SE::Yandex::Register и Check::RosKomNadzor * Исправлена разница в запросах, отправляемых через Net::HTTP и JS * Исправлен баг в SE::Yahoo * Исправлены ошибки в Rank::CMS при выборе приложения без категории * [NodeJS] Исправлен подсчет времени исполнения кода парсера * [JS парсеры] При пустом body не передавался заголовок content-length при post запросе * [JS парсеры] Исправлена работа CloudFlare bypass * [JS парсеры] Исправлена работа с сессиями * [JS парсеры] Исправлена работа с overrides для this.parser.request * [JS парсеры] Исправлена ошибка определения кодировки в JS парсерах ![]() |
#89
22 Июня 2020 14:17
Сборник рецептов #42: поиск битых ссылок, сервисы статистики и коммерциализация запросов
Представляем 42-й сборник рецептов, в котором собраны парсеры для определения наличия на сайте битых ссылок, сбора данных об используемых сервисах статистики и определения коммерциализации ключевых слов. Парсер Ahrefs::BrokenLink Ahrefs Broken Link Checker - это сервис, позволяющий определить наличие битых ссылок на сайте, а также некоторую другую полезную информацию. ![]() Парсер builtwith.com Этот парсер собирает данные об используемых на сайтах сервисах статистики с ресурса BuiltWith. С его помощью можно получить список id используемых сервисов статистики, а также список других сайтов, на которых используются эти же id. ![]() Определение коммерциализации запроса Способ определения степени коммерциализации ключевых слов, основанный на анализе поисковой выдачи Яндекса. Оценивается количество вхождений определенного списка слов в анкорах и сниппетах ТОП10 выдачи. ![]() Кроме этого: * Определение локации по координатам Еще больше различных рецептов в нашем Каталоге! Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter. Все сборники рецептов ![]() |
#90
6 Июля 2020 17:47
Видео урок: где смотреть переменные, скрытые переменные и какой результат они выводят (примеры)
В этом видео рассмотрели где смотреть переменные, какие бывают скрытые переменные и какой результат они выводят на примерах. Загрузка плеера
Содержание видео: 00:20 - 1. Где смотреть какие у парсера есть переменные? 1:16 - 2. Какие бывают скрытые переменные ($query.*, $root и т.п.)? 1:22 - переменная root 2:08 - переменная root объект 3:14 - переменная query.orig 4:04 - переменная query.first 5:24 - переменная query.lvl 5:50 - переменная query.prev 6:20 - переменная query.num Все возможные методы TT для работы с обьектами Форматирование запросов (шаблоны) Оставляйте комментарии и подписывайтесь на наш канал на YouTube! ![]() |
||||
18.09.2021 14:44 | OLX Parser (страны: UA, BG, KZ, PL, PT, RO, UZ) |
30.10.2017 12:36 | LSI Parser + бонус для копирайтеров, дорвейщиков(Для хорошей текстовки) |
28.02.2017 00:42 | Youla Parser – программа для парсинга телефонов из приложения Юла |
20.10.2016 18:57 | MyMail Parser - сбор данных, создание баз для рассылок |
10.04.2016 09:32 | VKParser |