Как найти уникальный контент в вебархиве?
Страницы: 1 2 След.
Как найти уникальный контент в вебархиве?, Бесплатный гайд
Адрес ВебАрхива
Цитата
http://archive.org/web/

Заходим сюда:
Цитата
https://www.nic.ru/auction/forbuyer/download_list.shtml#buying

Скачиваем то, что показано на скрине #1.

*скрин внизу страницы

--> Распаковываем и открываем этот файл через excel.
--> Нажимаем Ctrl + F (поиск), как на скрине #2, и ищем необходимое тематическое слово, которое по-логике должно встречаться в домене.

Копируем каждый понравившийся домен в блокнот или в форму на данный сайт (скрин #3):
Цитата
http://www.seogadget.ru/wa
Проверяем на наличие сайта в вебархиве, как на скрине #4.

Далее, собственными руками и глазами выискиваем страницы, похожие на те, на которых есть статья (скрин #5). Как пример, я взял "Отзыв о ВАЗ 2114 Люкс".

Проверяем уникальность в текст.ру или по адвего (скрин #6).

Рисунок


Надеюсь, получилось информативно.

Скрины:
1.png (19.89 КБ) [ Скачать ]
2.png (50.04 КБ) [ Скачать ]
3.png (27.08 КБ) [ Скачать ]
4.png (25.92 КБ) [ Скачать ]
5.png (16.81 КБ) [ Скачать ]
Изменено: Местный Шерлок - 2 Ноября 2016 17:13
Местный Шерлок, благодарствую)
Все конечно написано правильно. Из минусов можно сказать только о том, что конкуренция в этой схеме
Пара интересных функций для работы с архивом:
Код
function check_in_wa($string)//проверить наличие домена в архиве, если есть - записыть переменные $data и $domain и вернуть true
{global $data,$domain;$data=file_get_contents('http://web.archive.org/web/*/'.$string);if(strpos($data,'Saved ')){$domain=$string;return true;}else return false;}

function check_kley($string)//проверить клей по Яше
{$data=file_get_contents('http://bar-navig.yandex.ru/u?ver=2&show=32&url=http://'.$string);
$data1=explode('url domain="',$data);$data2=explode('"',$data1[1]);
if(($data2[0]==$string)or($data2[0]=='www.'.$string)or('www.'.$data2[0]==$string))return false;else return true;}

function check_www($string)//добавить к домену www, если надено такое в странице
{global $domain;if(strpos($string,'www.'.$domain))$domain='www.'.$domain;}

function get_snaps_year($string)//получить все даты снэпов в году (в текущей странице)
{$result=array();$data2=explode('<li><a href="',$string);for($i=1;$i<count($data2);$i++) {$ttdata=explode('">',$data2[$i]);$mdata=explode('" title="1 snapshots" class="',$data2[$i]);$ddata=explode('">',$mdata[1]);$result[]=array($ttdata[0],$ddata[0]);}return $result;}

function get_years($string)//получить со страницы годы, в которых были снэпы
{global $startyear,$nowyear;$years=array();$r1=explode('src="/web/jsp/graph.jsp',$string);$r2=explode('">',$r1[1]);
 for($i=$startyear;$i<=$nowyear;$i++){$t1=explode('_'.$i.':',$r2[0]);if($i<$nowyear){$t2=explode('_',$t1[1]);$t3=$t2[0];}else $t3=$t1[1];$t4=explode(':',$t3);$t5=$t4[1];if($t5!='000000000000')$years[]=$i;}return $years;}
 


Может, кому будет пригодиться, натолкнёт на правильные мысли. Сам весь парсер не дам, дорог мне как память, долго работал над ним, и просто я жадный.
Изменено: Eye - 2 Ноября 2016 19:17
Мы не можем похвастаться мудростью глаз
И умелыми жестами рук,
Нам не нужно все это, чтобы друг друга понять.
Сигареты в руках, чай на столе - так замыкается круг,
И вдруг нам становится страшно что-то менять.
Ещё чутка для размышлений:
Код
function del_musor($string)//удаляем всё ненужное на странице
{$t1=explode('</html>',$string);//задний блок веб архива
$t1=$t1[0].'</html>';

$t1=del_sec($t1,'<!-- Yandex.Metrika counter -->','<!-- /Yandex.Metrika counter -->',true);
$t1=del_sec($t1,'<script type="text/javascript" src="/static/js/analytics.js"></script>','<link type="text/css" rel="stylesheet" href="/static/css/banner-styles.css"/>',false);
$t1=del_sec($t1,'<!-- BEGIN WAYBACK TOOLBAR INSERT -->','<!-- END WAYBACK TOOLBAR INSERT -->',false);
$t1=del_sec($t1,'<!--LiveInternet counter-->','<!--/LiveInternet-->',true);
$t1=del_sec($t1,'<!--LiveInternet logo-->','<!--/LiveInternet-->',true);
$t1=del_sec($t1,'<base','>',true);
return $t1;}

function del_musor_cssjs($string)//удаляем всё ненужное на странице
{$t1=del_sec($t1,'/*','*/',true);return $t1;}

function ins_base_utf()//добавить base и кодировку заменить, если не та
{global $data;$data=ins_after($data,'<head>','<base href="/" />',false);$data=mainswaps($data);}


function find_href()
{global $hfinded,$hrele,$data;
$hfinded='';
if(strpos($data,' src="')){$hfinded=' src="';$hrele='"';return true;}
if(strpos($data," src='")){$hfinded=" src='";$hrele="'";return true;}
if(strpos($data,' href="')){$hfinded=' href="';$hrele='"';return true;}
if(strpos($data," href='")){$hfinded=" href='";$hrele="'";return true;}
if(strpos($data,' action="')){$hfinded=' action="';$hrele='"';return true;}
if(strpos($data," action='")){$hfinded=" action='";$hrele="'";return true;}
if(strpos($data,'url("')){$hfinded=' action="';$hrele='")';return true;}
if(strpos($data,"url('")){$hfinded=' action="';$hrele="')";return true;}
if(strpos($data,'url(')){$hfinded=' action="';$hrele=')';return true;}
return false;}

function add_href($full,$loc)//если нет в карте ссылок, то добавляем
{global $hrefmap;
if($loc=='')$loc='/';
if(strpos($loc,'?')){$tloc=explode('?',$loc);$loc=$tloc[0];}
if(strpos($loc,'#')){$tloc=explode('#',$loc);$loc=$tloc[0];}
for($i=0;$i<count($hrefmap);$i++)if($hrefmap[$i][1]==$loc)return;$hrefmap[]=array('http://web.archive.org'.$full,$loc,0);}

function page_hrefs()//делаем ссылки из вебархивных нормальными (своими)
{global $hfinded,$hrele,$domain,$data,$prefix;
$swaps=array();
$insertcode=0;
while(find_href())
{
$data1=explode($hfinded,$data);
$data2=explode($hrele,all($data1,$hfinded));
$data=$data1[0].'XXINSERT'.$insertcode.'XX'.all($data2,$hrele);
$insertcode++;
$anastring=$data2[0];
if(strpos($anastring,'/http://'.$domain.'/'))//это внутренняя ссылка или ресурс, сохраненные (возможно) в архиве
 {$tu=explode('/http://'.$domain.'/',$anastring);
  add_href($anastring,$tu[1]);
  $swaps[]=$hfinded.$tu[1].$hrele;
 }else
if(strpos($anastring,'/https://'.$domain.'/'))//это https 2внутренняя ссылка или ресурс, сохраненные (возможно) в архиве
 {$tu=explode('/https://'.$domain.'/',$anastring);
  add_href($anastring,$tu[1]);
  $swaps[]=$hfinded.$tu[1].$hrele;
 }else//это локальная или внешняя ссылка
if(strpos($anastring,'http://'))//проверить наличие http или https и если есть - то это внешняя ссылка
 {$tu=explode('/http://',$anastring);
  $swaps[]=$hfinded.'http://'.$tu[1].$hrele;
 }else
if(strpos($anastring,'https://'))//проверить наличие http или https и если есть - то это внешняя ссылка
 {$tu=explode('/https://',$anastring);
  $swaps[]=$hfinded.'https://'.$tu[1].$hrele;
 }else
 {$swaps[]=$hfinded.$anastring.$hrele;
  add_href($prefix.$anastring,$anastring); //добавить локальные ссылки с префиксом
 }
}
for($i=0;$i<count($swaps);$i++)
{
$data=str_replace('XXINSERT'.$i.'XX', $swaps[$i], $data);
}
}
 
а в веб архив ставить ссылку страницы и он текст выдает?
Я так понимаю, что этот мониторинг нужно делать когда домены уже освободятся? Ведь в списке только домены которые готовятся к освобождению.И честно говоря не понятна механика. Как текст, который уже размещен на сайте, может быть уникальным?
Dr. SEO, что есть уникальность?
Цитата
Prapovednik пишет:
Dr. SEO, что есть уникальность?
Как я себе представляю. уникальность это отсутствие у текста страницы в интернете.
О познавательно я честно говоря никогда и не работал с вебархивом)) Спс)
Цитата
Dr. SEO пишет:
Как текст, который уже размещен на сайте, может быть уникальным?


Магия! smile:D Если серьезно, то освобождающиеся домены уже месяц как заблокированы за не уплату и из индекса выпали. НО! Это не озачает, что их тексты не находятся в кэше ПС smile:) Так что думайте сами... В целом метод рабочий.

masterrabot,

Цитата
masterrabot 


Магия! smile:D Если серьезно, то освобождающиеся домены уже месяц как заблокированы за не уплату и из индекса выпали. НО! Это не озачает, что их тексты не находятся в кэше ПС smile:) Так что думайте сами... В целом метод рабочий.
Теперь сообразил ) Забыл про то, что перед освобождением месяц в карантине. Но почему при проверке домена на страницы у меня вылетают ошибки? У автора их тоже много (на скрине) хотелось бы понять. что они означают.
Цитата
Dr. SEO пишет:
что они означают.


Либо глюк сервиса, либо эти домены запрещены к показу в файле роботс и вебархив не отдает по ним информацию.
Дело в том, что уник в вебархиве найти тяжело, конкретный текст по какой-то теме еще тяжелее. Перелопатить много дерьма придется в поисках жемчуга.
Цитата
sharkson пишет:
Перелопатить много дерьма придется в поисках жемчуга.


Что есть, то есть. Особенно если учесть причины, по которым сайты закрываются.
Страницы: 1 2 След.
Похожие темы:
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
16:11 Давайте начнем обмен отзывами Google maps 
22:14 Webvork - международная товарная СРА сеть с сертифицированными офферами на Европу. 
13:03 AntiBot Cloud - бесплатный скрипт и сервис защиты сайтов 
13:04 DreamCash.tl - заработок на онлайн-видео. До 95% отчислений, отличный конверт! 
20:13 Dao.AD: Монетизация и покупка Push/Pops/Inpage и Video трафика! 
15:04 Adtrafico - Правильная партнёрская сеть под бурж трафик 
19:21 LOSPOLLOS.COM - Конвертим по рецепту Хайзенберга. Dating, Mainstream, Binary Options 
19:49 Sectormoney.com - быстрый и удобный обменник 
18:51 TELEGRAM EXPERT — Многоцелевой комбайн по работе с Telegram! 
04:17 Просто $0.04/IP 9PROXY.COM Резидентные прокси Неограниченная пропускная способность Уникальная политика замены Без чёрного списка 
02:16 BetaTransfer касса — это надежный сервис приема платежей в сфере High Risk 
21:43 Coin Click.cc - Быстрый и надежный обмен электронных валют в два клика 
15:03 Продам аккаунты 1 ТБ Облако@Mail.ru 
14:59 PlayPay.biz - Лутбоксы с товарами, играми 
23:14 Точные прогнозы на футбол 
20:09 Сколько сейчас стоит наполнение ИМ? 
12:43 Куплю проигрышные букмекерские аккаунты 
04:33 Половина скидок на распродажах — фейк 
07:53 НейроБабушка наказывает мошенников 
19:59 Осталось 3-5 месяцев до блокировки YouTube в России, — заявил Клименко 
19:57 Пятница 13-ое: VK принял радикальное решение и закрыл доступ к порно контенту