A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc
Страницы: Пред. 1 ... 4 5 6 7 8 ... 14 След.
A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc
Цитата
Jack SparroW пишет:
В гугле сменилась верстка, вы внесли эти обновления в парсер?
Да, все новые изменения в последней версии 1.2.752
Сборник рецептов #38: парсер Яндекс.Кью, парсер сайтов из Яндекс.Радар и определение типов сайтов

38-й сборник рецептов. В нем опубликованы: парсер сервиса вопросов-ответов Яндекс.Кью, парсер для сбора сайтов из Яндекс.Радара, а также парсер для определения типа сайта.

Парсер Яндекс Кью

Яндекс.Кью - это сервис вопросов-ответов, запущенный в конце 2019 года. Он объединил в себе несколько других сервисов, поэтому уже на момент запуска обладал большой базой информации. Мы не могли оставить это просто так и публикуем парсер для сбора данных из этого сервиса.

Рисунок


Парсинг сайтов из Яндекс.Радар

Яндекс.Радар - это сравнительно новый сервис Яндекса, который в отчасти заменил ранее популярный Яндекс.Каталог. Это большой каталог популярных в рунете сайтов с данными о их посещаемости и некоторой информацией о посетителях. Мы подготовили парсер, с помощью которого можно собрать список сайтов с необходимыми фильтрами.

Рисунок


Определение типа сайта по Яндекс Радару

И еще один парсер для Яндекс.Радар от нашего пользователя. С его помощью можно определять типы сайтов, если они есть в базе Яндекс.Радара.

Рисунок


Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
Сборник статей #11: анализ содержимого картинок, добавление ссылок в индекс Google и поиск RSS лент

11-й сборник статей, в котором рассказано, как в А-Парсере анализировать содержимое картинок, добавлять страницы своих сайтов в индекс Google и искать RSS ленты необходимой тематики.

Фильтрация картинок по их содержимому

В этой статье на примере поиска картинок с определенным содержимым, показана работа с Google Vision. С помощью "компьютерного зрения" для каждого изображения присваивается набор меток, который описывает содержимое.

Рисунок


Инструкция по использованию Google Indexing API

В данной статье рассмотрена работа с Google Indexing API, который позволяет владельцам сайтов напрямую уведомлять Google о добавлении или удалении страниц. Таким образом ваш сайт будет быстрее просканирован Google, что способствует повышению качества трафика.

Рисунок


Поиск и сбор rss лент

В этой статье рассмотрен простой пример поиска ссылок на rss ленты по заданной тематике. Решение состоит из 3-х пресетов, каждый из которых отвечает за определенный этап работы.

Рисунок


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки smile:) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники статей

Рисунок
1.2.799 - новый парсер для поиска картинок, улучшения в существующих парсерах

Рисунок


Улучшения

* Добавлен новый парсер SE::Yandex::ByImage - поиск картинок в Яндексе по ссылке
* В Social::Instagram::post добавлена возможность собирать ссылки на локации
* В Util::YandexRecognize добавлена поддержка сессий
* В SE::Yandex::SQI добавлена возможность определять считается ли домен "официальным"
* Улучшения в HTML::EmailExtractor для более качественного сбора почт
* В SE::Google::Trends обновлен и значительно расширен список регионов
* Из SE::Seznam удален парсинг $related в связи с тем, что связанные ключевые слова больше не выводятся на странице выдачи

Исправления в связи с изменениями в выдаче

* Исправлен парсинг $totalcount, рекламы и мобильной выдачи в парсерах Google
* Исправлен парсинг анкоров и сниппетов в SE::Yandex
* Исправлены парсеры SerpStat
* SE::Yandex::Direct, SE::Bing::LangDetect , Rank::Ahrefs, SE::Bing , SE::Startpage , Shop::eBay

Исправления

* Исправлен выбор страны в SE::Yahoo
* Исправлен баг с декодированием ссылок в SE::Google::Images
* В режиме -newnode исправлены проблемы с кодировкой и оптимизировано потребление памяти


Рисунок
Парсинг booking.com с помощью A-Parser

В этом видео уроке рассмотрен парсинг ресурса booking.com, получение результатов поиска квартир и отелей на сайте. Подробную информацию о них будем получать при помощи парсера Рисунок
Net::HTTP


Рисунок



В видео рассмотрено

* Пользование разделом тестового парсинга
* Переход по страницам пагинации
* Проверка наличия определенного контента на странице сайта
* Использование регулярных выражений
* Применение конструктора результатов (декодирование HTML сущностей)
* Применение шаблонизатора Template Toolkit в формате результата:
* Использование инструмента $tools.CSVline
* Циклическая обработка директивой FOREACH
* Виртуальный метод .match
* Фильтры: .remove, .collapse, .replace

Полезные ссылки

* Net::HTTP - https://a-parser.com/wiki/net-http/
* Тестовый парсинг - https://a-parser.com/wiki/test-parsing/
* Template Toolkit - https://a-parser.com/wiki/template-toolkit/
* tools.CSVline - https://a-parser.com/wiki/template-tools/#tools-csvline-простое-создание-csv-файлов
* Готовый пресет: https://a-parser.com/resources/383/

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
Рисунок
Сборник рецептов #39: бот-опросник, парсер hotline.ua и copart.com

Представляем вашему вниманию 39-й сборник рецептов, в который вошли:

* телеграмм бот опросник
* парсер агрегатора цен hotline.ua
* парсер аукционов транспортных средств copart.com

Телеграмм бот опросник

Данный бот позволяет организовать ежедневный опрос сотрудников, при этом список вопросов можно гибко менять. Все настройки берутся из Google таблицы, а также туда пишутся ответы по каждому сотруднику.
Также, этот пример демонстрирует возможность создания телеграмм бота на базе A-Parser и работу с Google таблицами.

Рисунок


Парсер hotline.ua

hotline.ua - это самый большой агрегатор цен в Украине. С его помощью можно мониторить и анализировать цены на товары у конкурентов или искать наиболее выгодные предложения среди большого количества интернет-магазинов.

Рисунок


Парсер copart.com

Copart является одним из крупнейших интернет аукционов, специализирующихся на продаже новых и б/у автомобилей. По официальной информации каждый день на аукционе выставляется на продажу более 150 000 транспортных средств.

Рисунок


Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
Видео урок: Именование файлов результатов

Мы начинаем публикацию серии коротких видеоуроков, каждый из которых будет посвящен какому-то одному функционалу.
И в этом уроке будут рассмотрены варианты формирования имени файла результата.

Рисунок


В видео рассмотрено:

* Нумерация файла результата в соответствии с запросами
* Нумерация файла результата + часть имени запроса
* Именование файла результата по запросу, если запрос линк

Полезные ссылки:

* Формат результата - https://a-parser.com/wiki/tips-v1-1-0/#Формат-результата
* Шаблонизатор Template Toolkit - https://a-parser.com/wiki/template-toolkit/
* Метод replace - http://template-toolkit.ru/Manual/VMethods.html

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Рисунок
1.2.852 - новый парсер для Google Keyword Planner, Native NodeJS, множество исправлений и улучшений

Рисунок

Улучшения

* Добавлен парсер SE::Google::KeywordPlanner
    - собираются списки подсказок и варианты ключевых слов
    - для каждого варианта парсится среднее кол-во запросов в месяц, конкуренция, объемы поиска, а также минимальная и максимальная ставки
    - присутствует возможность указывать несколько ключевых слов в запросе
* В SE::Yandex::ByImage добавлена функция Get full links to page, которая позволяет получать реальные ссылки на страницы
* В SE::Yandex::SQI добавлены переменные сбор количества отзывов и оценок, а также рейтинга
* Улучшена проверка правильности разгадывания каптчи в парсерах Яндекса
* Автоматическое увеличение лимитов на ОС Linux
* Улучшена работа с регулярными выражениями
* При бане прокси в лог задания теперь выводится более детальная информация
* Native NodeJS переведена из стадии альфы в бету, проведено множество оптимизаций, за счет чего в большинстве сценариев это дает повышение максимальной скорости в 1.5-2 раза, а также уменьшение потребление памяти в 2-4 раза
    - Начиная с 1.2.822 все бета версии имеют включенный Native NodeJS, стабильные версии выходят с включенным oldnode
* Native NodeJS: добавлена экспериментальная поддержка HTTP/2
* Native NodeJS: обновление Node.js до актуальной версии
* JS парсеры: добавлена опция allow_dangerous_node_modules, подробнее тут

Исправления в связи с изменениями в выдаче

* Исправлено скачивание каптчи в SE::Yandex
* Исправлен Rank::Ahrefs: в $anchors переменная $bl заменена на $domains
* В SE::Google исправлены:
    - парсинг mobile news
    - баг с дублированием ссылок в выдаче
    - парсинг анкоров в рекламе, связанных ключевых слов, а также первый результат в выдаче не всегда попадал в serp
* В SE::Google::Images исправлен парсинг gif
* Исправлен SE::Yandex::ByImage, убраны flat переменные $height и $width
SE::YandexSE::Google::ByImageSE::DuckDuckGoSocial::Instagram::PostRank::AhrefsRank::Bukvarix::DomainSE::MailRuSE::Yandex::Suggest

Исправления

* Исправлена работа Net::Whois с доменами 3го уровня, а также улучшена проверка получаемого ответа
* Исправлена работа Extra query string в SE::Bing
* Исправлена работа Rank::SEMrush и Rank::SerpStat::Keyword при получении ответа без данных
* Исправлен баг с типами переменных
* Исправлена ошибка, при которой запросы ошибочно считались неудачными при постановке задания на паузу
* Исправлена работа Bypass Cloudflare
* Исправлен динамический лимит потоков
* Исправлена ошибка при использовании Request delay
* Исправлено предупреждение о превышении лимита в Поле запросов
* Исправлена работа $tools.task.id в имени файла результата
* JS парсеры: исправлены получение сессий и работа http2 (баг появился в одной из предыдущих версий)
* JS парсеры: исправлено определение кодировки страницы
* Native NodeJS: исправлено поведение при некоторых ошибках
* Native NodeJS: исправлена проблема при обновлении A-Parser на OS Windows
* Native NodeJS: исправлена работа save_to_file, а также еще ряд ошибок
* Native NodeJS: исправлена работа SOCKS5 с авторизацией
* Native NodeJS: исправлена подстановка данных после Конструктора запросов

Рисунок
Сборник рецептов #40: посещаемость организаций, SSL сертификаты, ikea и анализ доменов

Представляем вашему вниманию 40-й сборник рецептов, в который вошли:

* парсер данных о посещаемости организаций
* парсер данных о SSL сертификатах
* парсер товаров на ikea.com
* комплексный пресет для анализа доменов по ряду характеристик
* способ извлечения доменов из ссылок без фактического захода на страницу


Посещаемость в Google Maps

В поисковой выдаче Google для определенных запросов отображается расширенный сниппет с информацией об организации из Google карт. В частности, обычно отображается информация о посещаемости в разрезе дней недели.
Представляем парсер, который собирает данные о посещаемости.

Рисунок


Данные по SSL сертификату

Данный парсер собирает информацию о SSL сертификате сайта. В качестве источника данных используется сторонний ресурс.

Рисунок


Парсер ikea.com

Парсер данных из ikea.com, который позволяет собирать различную информацию о товарах. Согласно данным из Википедии, ikea - это одна из крупнейших в мире торговых сетей по продаже мебели и товаров для дома.

Рисунок


Кроме этого:

* Получение доменов из ссылок без захода на страницу
* Информация о сайте (домене)


Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
Видео урок: Сохранение результатов в несколько файлов используя переменные, массивы и условия

В этом видео уроке рассмотрены способы сохранения результатов в несколько файлов, используя переменные и массив, при определенных условиях.

Рисунок


В видео рассмотрено:
* Вывод результатов в разные файлы с разными именами используя переменные
* Вывод результатов для каждого файла отдельно по определенному условию
* Вывод результатов для двух файлов с условием, используя массив

Полезные ссылки:
* https://a-parser.com/wiki/template-toolkit/ - Шаблонизатор Template Toolkit
* http://template-toolkit.ru/Manual/Directives.html#Uslovnaya_obrabotka - условная обработка (IF, UNLESS, ELSIF, ELSE)
* http://template-toolkit.ru/Manual/Directives.html#Ciklicheskaya_obrabotka - циклическая обработка FOREACH
* https://a-parser.com/wiki/task-tester/ - тестировщик заданий

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Рисунок
Разработчикам A-Parser огромный респект! Пользуюсь сервисом уже несколько месяцев, заменяет мне кучу других сервисов, которыми я раньше пользовался. Снимаю позиции по сайтам, качаю вордстат в больших объёмах и паршу магазины! И всё это в одном сервисе! Очень доволен.
Сборник рецептов #41: Google таблицы, отправка писем и авторизация с помощью puppeteer

Представляем 41-й сборник рецептов, который полностью посвящен использованию различных Node.js модулей в A-Parser.
* Работа с Google таблицами
* Отправка писем из А-Парсера
* Авторизация с помощью puppeteer

Сохранение результатов в Google SpreadSheets

Один из часто задаваемых вопросов в поддержке, это вопрос о возможности писать результаты прямо в Google Таблицы. Поэтому мы подготовили небольшой пример парсера, который демонстрирует такую возможность.

Рисунок


Отправка почтовых писем

Еще одна возможность, о которой часто спрашивают наши пользователи - отправка писем. Такой функционал может быть использован для уведомлений о различных событиях в заданиях, в том числе о завершении их работы. Поэтому мы также подготовили пример, демонстрирующий отправку писем прямиком из А-Парсера.

Рисунок


Авторизация на GitHub с использованием puppeteer

Еще один пример по заявкам наших пользователей, демонстрирующий загрузку страницы, авторизацию на ресурсе и простую навигацию.

Рисунок



Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
1.2.912 - обновление NodeJS, повышение производительности, адаптация к изменениям в рекаптчах

Рисунок


Мы завершили переход на NodeJS в качестве основного движка для парсеров и представляем новую стабильную версию 1.2.912 с поддержкой NodeJS 14.2.0. Данное обновление сочетает в себе множество улучшений, включая повышение производительности, уменьшение потребления памяти, полностью новый сетевой стек, а также поддержку нативных NodeJS модулей, позволяющую использовать всю мощь каталога npmjs в A-Parser'е

Также в данное обновление включены изменения по работе с ReCaptcha2 в парсере Google, наша команда одна из первых нашла решение по обходу новой версии рекаптчи и протестировала его совместно с сервисом RuCaptcha, за что им отдельный респект. На данный момент корректный обход каптчи протестирован с RuCaptcha, Anti-Captcha, XEvil и CapMonster.

Помимо этого было произведено множество оптимизаций в ядре A-Parser'а, значительно увеличилась производительность при использовании большого числа заданий или больших списков прокси. Парсер Rank::CMS был полностью переписан и стабилизирован, добавлена поддержка нового формата apps.json и поддержка пользовательских правил.

Улучшения
* NodeJS обновлен до v14.2.0, v8 до 8.1
* Добавлена поддержка параметра data-s в рекаптчах для SE::Google, также добавлена опция ReCaptcha2 pass proxy
* Увеличен лимит потоков до 10000 для OS Windows
* Значительно улучшена производительность при большом числе активных прокси и/или заданий, полностью переписан стек по работе с прокси, оптимизирована работа с большими списками
* Добавлен новый парсер Rank::KeysSo
* Полностью переписаны на JS SE::Yahoo::Suggest, Rank::Alexa::API и Rank::Archive
* Улучшена производительность при использовании регулярных выражений, а также улучшена совместимость
* В SE::Google::KeywordPlanner добавлено автоматическое получение токена
* В SE::Bing добавлена возможность парсить ссылки на кэшированные страницы, а также добавлена возможность парсить мобильную выдачу
* В парсере Util::ReCaptcha2 при выборе провайдера Capmonster или Xevil теперь необязательно указывать Provider url
* В SE::Google::Trends добавлена возможность указывать произвольный диапазон дат
* В Rank::CMS добавлен выбор движка регулярок и поддержка собственного файла с признаками
* В SE::Yandex::ByImage добавлена опция Don't scrape if no other sizes, которая позволяет отключить сбор результатов, если искомой картинки нет в других размерах
* [NodeJS] Добавлена защита от бесконечных циклов и долгих регулярок
* [NodeJS] Исправлена работа this.cookies.getAll()
* [JS парсеры] Добавлена опция follow_meta_refresh для this.request
* [JS парсеры] Добавлена опция bypass_cloudflare для this.request
* [JS парсеры] Underscore заменен на Lodash
* [JS парсеры] В логе добавлена пометка при вызове других парсеров
* [JS парсеры] Использование предыдущего прокси после запроса к другому парсеру
* [JS парсеры] Добавлен метод destroy()
Исправления в связи с изменениями в выдаче
* Множество исправлений в SE::Google
* Исправлен SE::Youtube, в т.ч. парсинг по тегам
* Исправлен сбор ссылок в Shop::eBay
* Исправлен парсинг телефонов в Maps::Google
* Исправлена работа с каптчами в SE::Yandex::ByImage
* В Rank::Social::Signal удалена переменная $facebook_comment в связи с неактуальностью
* SE::Startpage, Rank::Linkpad, Social::Instagram::post, SE::Yandex::Translate
Исправления
* Исправлен баг, из-за которого игнорировался выбранный проксичекер
* Исправлена работа функций Decode HTML entities и Extract domain в Конструкторе результатов
* Исправлена проблема с определением кодировки
* Исправлена ошибка использования $tools.query
* Исправлен баг в Rank::MajesticSEO при котором использовались все попытки при отсутствии результатов
* Исправлена работа http2
* Исправлена ошибка, когда парсер падает из-за невозможности писать в alive.txt
* Исправлено разгадывание каптч в SE::Yandex::Register и Check::RosKomNadzor
* Исправлена разница в запросах, отправляемых через Net::HTTP и JS
* Исправлен баг в SE::Yahoo
* Исправлены ошибки в Rank::CMS при выборе приложения без категории
* [NodeJS] Исправлен подсчет времени исполнения кода парсера
* [JS парсеры] При пустом body не передавался заголовок content-length при post запросе
* [JS парсеры] Исправлена работа CloudFlare bypass
* [JS парсеры] Исправлена работа с сессиями
* [JS парсеры] Исправлена работа с overrides для this.parser.request
* [JS парсеры] Исправлена ошибка определения кодировки в JS парсерах

Рисунок
Сборник рецептов #42: поиск битых ссылок, сервисы статистики и коммерциализация запросов

Представляем 42-й сборник рецептов, в котором собраны парсеры для определения наличия на сайте битых ссылок, сбора данных об используемых сервисах статистики и определения коммерциализации ключевых слов.

Парсер Ahrefs::BrokenLink

Ahrefs Broken Link Checker - это сервис, позволяющий определить наличие битых ссылок на сайте, а также некоторую другую полезную информацию.

Рисунок


Парсер builtwith.com

Этот парсер собирает данные об используемых на сайтах сервисах статистики с ресурса BuiltWith. С его помощью можно получить список id используемых сервисов статистики, а также список других сайтов, на которых используются эти же id.

Рисунок


Определение коммерциализации запроса

Способ определения степени коммерциализации ключевых слов, основанный на анализе поисковой выдачи Яндекса. Оценивается количество вхождений определенного списка слов в анкорах и сниппетах ТОП10 выдачи.

Рисунок

Кроме этого:
* Определение локации по координатам

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

Рисунок
Видео урок: где смотреть переменные, скрытые переменные и какой результат они выводят (примеры)

В этом видео рассмотрели где смотреть переменные, какие бывают скрытые переменные и какой результат они выводят на примерах.

Загрузка плеера


Содержание видео:
00:20 - 1. Где смотреть какие у парсера есть переменные?
1:16 - 2. Какие бывают скрытые переменные ($query.*, $root и т.п.)?
1:22 - переменная root
2:08 - переменная root объект
3:14 - переменная query.orig
4:04 - переменная query.first
5:24 - переменная query.lvl
5:50 - переменная query.prev
6:20 - переменная query.num

Все возможные методы TT для работы с обьектами
Форматирование запросов (шаблоны)

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

Рисунок
Страницы: Пред. 1 ... 4 5 6 7 8 ... 14 След.
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
18:52 Webvork - международная товарная СРА сеть с сертифицированными офферами на Европу. 
07:39 Нейросеть Google пожелала человеку смерти, но при этом два раза произнесла «пожалуйста» 
12:37 AntiBot Cloud - бесплатный скрипт и сервис защиты сайтов 
12:11 Работает ли ссылочное продвижение 2019 – 2020? 
13:20 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика! 
01:31 SharkBoss - партнёрская программа для монетизации ЛЮБЫХ видов трафика (включая спам). 
15:20 Adtrafico - Правильная партнёрская сеть под бурж трафик 
21:20 A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc 
18:04 PlayPay.biz - Лутбоксы с товарами, играми 
17:22 ProxyWins.com - 15% по промо-коду "venividivici" 
17:06 Блокировка сайтов, форумов, контента 
16:29 BestX24 - быстрый и безопасный обменник криптовалют и электронных денежных средств 
16:28 barry24.com - онлайн обменник без AML и верификации, полностью анонимные обмены 
15:53 Находимся в поиске платежного шлюза под low/medium risk проекты. 
17:23 Не храните данные на жёстких дисках 
13:56 Подтягиваем физкультурку 
05:48 Точные прогнозы на футбол 
12:50 Осторожно! Криптовалюта 
08:53 Осталось 3-5 месяцев до блокировки YouTube в России, — заявил Клименко 
08:46 Пятница 13-ое: VK принял радикальное решение и закрыл доступ к порно контенту 
08:42 Стряхнуть обыденность - об Агасфере