Предлагается комплекс софта и методика для постоянного сбора уникального контента. Парсим документы в промышленных объемах. Не стоит бояться, что контент закончится - его так много, что хватит на всех. Плюс непрерывно появляются тонны нового. Если вы думаете что там нечего ловить, то это не так. 0.5-1% уника там есть, но это как с золотой рудой - мало кто способен его добыть. Ну а если парсим, к примеру, 10Gb - то можете сами представить. Предлагаемая методика позволяет свести ручную работу к минимуму и получить на выходе файлы с уником. Объемы такой работы смотрите ниже - все проверил и расписал максимально подробно.
Цена более чем символическая, не отбить её просто невозможно
Состав сборки:
- шаблон под ZennoPoster, если у вас нет постера то можно использовать ZennoBox (http://bazzinga.ru/chto-takoe-zennobox)
- очень удобная программа для удаления дублей (free)
- очень удобная программа-конвертер всех форматов документов (free)
- методика-мануал по поиску файлов с уникальным текстом (все подробно со скринами).
Как это работает:
- на входе файл с ключами, по которым будем парсить, на выходе папки по имени ключа, внутри все файлы разложены по папкам форматов файла.
- в данный момент грабит doc, docx, rtf, txt + могу добавить форматы по вашему желанию.
- ключи по мере парсинга из базы удаляются, так что если вдруг шаб вылетит по какой то причине - его можно снова запускать и он будет парсить с того же места.
- далее работаем по методике и получаем чистый уник. Потребуется 2-3 бакса на антикапчу.
Результаты эксперимента:
Была взята небольшая база ключей (ок.100шт), по которой за 10 часов на 10Mbit'ном канале в 1 поток было скачано ок. 5 Gb документов, все файлы скомпонованы по типам, после чего за день все было переконвертировано в txt.
Скриншоты:
Получилось ок 8 000 файлов, которые были прогнаны экспресс-проверкой, на что ушел второй день. Затем все получившиеся файлы были прогнаны второй раз с уже более строгими настройками. В результате получилось почти 100 Мб (1500 файлов) уникального (от 70%) текста в txt формате и стоило это ок $2,5 (за разгадывание капчи на antigate.com). Далее весь этот массив подлежал ручной проверке. В основном это оказались уникальные дипломы, лекции, конспекты, курсовые, книги и просто статьи. Иногда попадались большие файлы с творчеством пользователей - понятное дело, что они были уже 100% уникальны. Буквально за 30 минут я насобирал тематичных статей из чистого уникального текста без цифр и прочего мусора на 500 тыс знаков (на 1500р при средней цене за скан в 3р/1k). Причем это зависит от ключей, которые вы используете. Я предполагаю что можно найти такие ключи, по которым процент уника будет больше.
Всем желающим могу выслать пак на 350 тыс. знаков уникального теста. Более подробно у меня на сайте.
Скриншоты:
Стоимость шаблона - $10
Другие мои шаблоны:
- Отправка заявок и сбор заданий для Блогуна (рост дохода и экстремальная экономия времени!)
- Поиск и вступление в закрытые группы ВК и ОД - можно собирать уникальный контент или использовать их в других парсерах
- Комплекс шаблонов для блогов LiveJournal.com (ЖЖ) - реггер, постер, френдер, филлер и чекер френдов.
- любые другие шаблоны на заказ
Все это вы можете найти на сайте http://bazzinga.ru
ICQ: 3409-3409
Skype: bazzinga.ru
Email: bazzinga.lab(гав!)gmail.com
Цена более чем символическая, не отбить её просто невозможно
Состав сборки:
- шаблон под ZennoPoster, если у вас нет постера то можно использовать ZennoBox (http://bazzinga.ru/chto-takoe-zennobox)
- очень удобная программа для удаления дублей (free)
- очень удобная программа-конвертер всех форматов документов (free)
- методика-мануал по поиску файлов с уникальным текстом (все подробно со скринами).
Как это работает:
- на входе файл с ключами, по которым будем парсить, на выходе папки по имени ключа, внутри все файлы разложены по папкам форматов файла.
- в данный момент грабит doc, docx, rtf, txt + могу добавить форматы по вашему желанию.
- ключи по мере парсинга из базы удаляются, так что если вдруг шаб вылетит по какой то причине - его можно снова запускать и он будет парсить с того же места.
- далее работаем по методике и получаем чистый уник. Потребуется 2-3 бакса на антикапчу.
Результаты эксперимента:
Была взята небольшая база ключей (ок.100шт), по которой за 10 часов на 10Mbit'ном канале в 1 поток было скачано ок. 5 Gb документов, все файлы скомпонованы по типам, после чего за день все было переконвертировано в txt.
Скриншоты:
Получилось ок 8 000 файлов, которые были прогнаны экспресс-проверкой, на что ушел второй день. Затем все получившиеся файлы были прогнаны второй раз с уже более строгими настройками. В результате получилось почти 100 Мб (1500 файлов) уникального (от 70%) текста в txt формате и стоило это ок $2,5 (за разгадывание капчи на antigate.com). Далее весь этот массив подлежал ручной проверке. В основном это оказались уникальные дипломы, лекции, конспекты, курсовые, книги и просто статьи. Иногда попадались большие файлы с творчеством пользователей - понятное дело, что они были уже 100% уникальны. Буквально за 30 минут я насобирал тематичных статей из чистого уникального текста без цифр и прочего мусора на 500 тыс знаков (на 1500р при средней цене за скан в 3р/1k). Причем это зависит от ключей, которые вы используете. Я предполагаю что можно найти такие ключи, по которым процент уника будет больше.
Всем желающим могу выслать пак на 350 тыс. знаков уникального теста. Более подробно у меня на сайте.
Скриншоты:
Стоимость шаблона - $10
Другие мои шаблоны:
- Отправка заявок и сбор заданий для Блогуна (рост дохода и экстремальная экономия времени!)
- Поиск и вступление в закрытые группы ВК и ОД - можно собирать уникальный контент или использовать их в других парсерах
- Комплекс шаблонов для блогов LiveJournal.com (ЖЖ) - реггер, постер, френдер, филлер и чекер френдов.
- любые другие шаблоны на заказ
Все это вы можете найти на сайте http://bazzinga.ru
ICQ: 3409-3409
Skype: bazzinga.ru
Email: bazzinga.lab(гав!)gmail.com
Изменено:
Oxygen - 26 Июля 2013 03:46