goo.gl/ByT29
RSS/Atom клиент-граббер, HTML парсер, способный публиковать полученные новости в различные CMS
Граббер работает с такими движками (CMS, публикует в них полученные новости), как: DLE (Data Life Engine), Strawberry, 2z-project, NG, WordPress, Joomla, E107, Drupal, Danneo, TYPO3, NetCat, Slaed, InstantCMS, FDE CMS
Если в этом списке не представлен движок вашего сайта, то возможна доработка граббера для работы с ним
Возможности:
- RSS/Atom, HTML граббинг кратких и полных новостей, с возможностью выкачивания картинок и автоматического запуска из планировщика заданий CRON- возможность логина на сайт, с которого идёт граббинг (например, для чтения скрытого от гостей текста)
- самая совершенная система настройки шаблонов для парсинга (1 — простая, без регулярных выражений; 2 — с использованием регулярных выражений)
- разнообразные фильтры и замены слов (1 — простые, без регулярных выражений; 2 — с использованием регулярных выражений)
- возможность создания превью для картинок
- возможность наложения на картинки вотермарков (watermark, «водяной знак», )
- возможность предварительного тестирования правильности настроек
- встроенный синонимайзер (в комплекте 2 базы: русскоязычная и англоязычная)
- встроенный переводчик (используется yandex API)
- редактирование синонимов и стоп-слов через администраторский интерфейс
- экспорт/импорт настроек граббера
- экспорт/импорт баз синонимайзера
- корректная работа со всеми известными кодировками
- возможность работы через прокси сервер
- ведение лога событий, что позволяет отслеживать возможные проблемы, или просто контролировать качественную работу граббера
- поддержка фейковых пользователей и комментариев
- возможность парсить ленты которые работают через систему FeedBurner
- возможность парсить ленты, получать картинки, сохранять статьи, обходя редиректы (перенаправления)
- возможность выкачивания полностью всех новостей с сайта, в случае использования HTML источников (это достигается путём задействования обхода пейджера:
site.com/page/{page}/, где {page} будет принимать значения номеров страниц пейджера сайта с указанным интервалом)
- возможность обхода по параметру, в случае использования HTML источников: site.com/param/{param}/, где {param} будет принимать указанные значения
- корректная работа с HTML дескриптором (тегом) BASE
- возможность использовать собственные хаки (микропрограммы для обработки контента). На данный момент, в стандартный дистрибутив входит порядка 10 хаков. Среди стандартных хаков в граббере, на данный момент имеются такие:
[LIST]
[*]выровнять картинки по левому краю
[*]выровнять картинки по правому краю
[*]выровнять картинки по центру
[*]отфильтровать ссылки на третьи сайты
[*]заключать ссылки на третьи сайты в noindex и добавлять nofollow
[*]удалять скрипты и события в тегах
[*]удалять внедрённые объекты
[*]удалять плавающие фреймы
[*]заменять абзацы на двойные переводы строк
[*]заменять переводы строк на абзацы (не всегда корректно)
[*]преобразовать текстовые переводы строк в HTML переводы
[*]удалить лишние пробелы, переводы строк и табуляции
[*]удалить стили и стилевые атрибуты
[*]перемешать предложения (поменять местами)
[/LIST]- отдельная настройка размеров изображений для краткой и полной новости- возможность не только уменьшать картинки, но и производить операцию обрезки, кроппинга (crop image)
- разграничение прав пользователей в админке системы импорта новостей; возможность назначать пользователям группу; возможность создавать новые группы, с указанием прав доступа
- возможность устанавливать лимит публикуемых статей за день
- возможность автоматического клонирования категорий и источников (очень удобно при создании новых категорий источников или источников с похожими параметрами и настройками)
- возможность автоматического определения принадлежности статьи к какой-либо категории на основе обработанных стеммером ключевых слов
- возможность распознавания русских дат
- возможность указания нескольких шаблонов (сингатур/шинглов) для парсинга через тег логического ИЛИ: {or}
- возможность автоматического переименования имён получаемых картинок путём транслитерации заголовка статьи, с целью получения псевдо SEF (ЧПУ) адресов
- возможность настройки расположения вотермарка (водяного знака): левый верхний угол/правый верхний угол/левый нижний угол/ правый нижний угол/по центру/случайно из перечисленных вариантов
- возможность указания случайной флуктуации дат публикуемых статей
Требования к хостингу минимальны, поэтому на большинстве серверов граббер будет работать
Более подробно ознакомиться можно здесь - goo.gl/ByT29
RSS/Atom клиент-граббер, HTML парсер, способный публиковать полученные новости в различные CMS
Граббер работает с такими движками (CMS, публикует в них полученные новости), как: DLE (Data Life Engine), Strawberry, 2z-project, NG, WordPress, Joomla, E107, Drupal, Danneo, TYPO3, NetCat, Slaed, InstantCMS, FDE CMS
Если в этом списке не представлен движок вашего сайта, то возможна доработка граббера для работы с ним
Возможности:
- RSS/Atom, HTML граббинг кратких и полных новостей, с возможностью выкачивания картинок и автоматического запуска из планировщика заданий CRON- возможность логина на сайт, с которого идёт граббинг (например, для чтения скрытого от гостей текста)
- самая совершенная система настройки шаблонов для парсинга (1 — простая, без регулярных выражений; 2 — с использованием регулярных выражений)
- разнообразные фильтры и замены слов (1 — простые, без регулярных выражений; 2 — с использованием регулярных выражений)
- возможность создания превью для картинок
- возможность наложения на картинки вотермарков (watermark, «водяной знак», )
- возможность предварительного тестирования правильности настроек
- встроенный синонимайзер (в комплекте 2 базы: русскоязычная и англоязычная)
- встроенный переводчик (используется yandex API)
- редактирование синонимов и стоп-слов через администраторский интерфейс
- экспорт/импорт настроек граббера
- экспорт/импорт баз синонимайзера
- корректная работа со всеми известными кодировками
- возможность работы через прокси сервер
- ведение лога событий, что позволяет отслеживать возможные проблемы, или просто контролировать качественную работу граббера
- поддержка фейковых пользователей и комментариев
- возможность парсить ленты которые работают через систему FeedBurner
- возможность парсить ленты, получать картинки, сохранять статьи, обходя редиректы (перенаправления)
- возможность выкачивания полностью всех новостей с сайта, в случае использования HTML источников (это достигается путём задействования обхода пейджера:
site.com/page/{page}/, где {page} будет принимать значения номеров страниц пейджера сайта с указанным интервалом)
- возможность обхода по параметру, в случае использования HTML источников: site.com/param/{param}/, где {param} будет принимать указанные значения
- корректная работа с HTML дескриптором (тегом) BASE
- возможность использовать собственные хаки (микропрограммы для обработки контента). На данный момент, в стандартный дистрибутив входит порядка 10 хаков. Среди стандартных хаков в граббере, на данный момент имеются такие:
[LIST]
[*]выровнять картинки по левому краю
[*]выровнять картинки по правому краю
[*]выровнять картинки по центру
[*]отфильтровать ссылки на третьи сайты
[*]заключать ссылки на третьи сайты в noindex и добавлять nofollow
[*]удалять скрипты и события в тегах
[*]удалять внедрённые объекты
[*]удалять плавающие фреймы
[*]заменять абзацы на двойные переводы строк
[*]заменять переводы строк на абзацы (не всегда корректно)
[*]преобразовать текстовые переводы строк в HTML переводы
[*]удалить лишние пробелы, переводы строк и табуляции
[*]удалить стили и стилевые атрибуты
[*]перемешать предложения (поменять местами)
[/LIST]- отдельная настройка размеров изображений для краткой и полной новости- возможность не только уменьшать картинки, но и производить операцию обрезки, кроппинга (crop image)
- разграничение прав пользователей в админке системы импорта новостей; возможность назначать пользователям группу; возможность создавать новые группы, с указанием прав доступа
- возможность устанавливать лимит публикуемых статей за день
- возможность автоматического клонирования категорий и источников (очень удобно при создании новых категорий источников или источников с похожими параметрами и настройками)
- возможность автоматического определения принадлежности статьи к какой-либо категории на основе обработанных стеммером ключевых слов
- возможность распознавания русских дат
- возможность указания нескольких шаблонов (сингатур/шинглов) для парсинга через тег логического ИЛИ: {or}
- возможность автоматического переименования имён получаемых картинок путём транслитерации заголовка статьи, с целью получения псевдо SEF (ЧПУ) адресов
- возможность настройки расположения вотермарка (водяного знака): левый верхний угол/правый верхний угол/левый нижний угол/ правый нижний угол/по центру/случайно из перечисленных вариантов
- возможность указания случайной флуктуации дат публикуемых статей
Требования к хостингу минимальны, поэтому на большинстве серверов граббер будет работать
Более подробно ознакомиться можно здесь - goo.gl/ByT29