Как заблочить роботов, которые кладут сайт
Страницы: Пред. 1 2 3 4 След.
Как заблочить роботов, которые кладут сайт
в общем сейчас мой роботс выглядит так
Код
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла   
Disallow: /cgi-bin          
Disallow: /?                
Disallow: /wp-              
Disallow: *?s=              
Disallow: *&s=             
Disallow: /search/  
Disallow: /author/
Disallow: /users/      
Disallow: */trackback                     
Disallow: */feed            
Disallow: */rss             
Disallow: */embed          
Disallow: /xmlrpc.php      
Disallow: *utm=            
Disallow: *openstat=  
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads
Crawl-delay: 10.0 # задает тайм-аут в 10 секунд   

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js           
Allow: /*/*.css           
Allow: /wp-*.png          
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign                          
Clean-Param: openstat

User-agent: Mail.Ru
Disallow:

Sitemap: <a href=\"https://site.ru/sitemap_index.xml\" target=\"_blank\">https://site.ru/sitemap_index.xml</a>

буду наблюдать
ПС:
Если стоит

User-agent: *

то задержка краулинга будет касаться всех ботов. Которые не игнорируют правила роботс само собой.
для гугла яндекса и майла нет задержки, а остальные пусть в очереди стоят
Вот это
Цитата
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла


неправда, т. к. * - это вообще все-все--все боты


Проверьте файл роботс на ошибки через Вебмастер Яндекса и гугла.

Тут ошибка. Уберите в 10.0 - точку 0
только целые числа в секундах
Цитата

Crawl-delay: 10.0 # задает тайм-аут в 10 секунд  
т.е. надо так
Код
Crawl-delay: 10
 
Код
User-agent: Mail.Ru
Disallow:

Если хотите запретить мейлрушнику всё - замените на

Код
User-agent: Mail.Ru
Disallow: /
 
Изменено: sharkson - 12 Октября 2019 16:22
Т. е. команда для мейлрушного бота должна выглядеть как я написал - если вы хотите ему запретить сканить всё на сайте.
нет, мейлру разрешить все
точнее сделал как гуглу, только rss и feed удалил, т.к. нужна лента майлу
хотя яндекс сам пишет

Код
User-agent: Yandex
Crawl-delay: 2.0 # задает тайм-аут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 1.5 # задает тайм-аут в 1.5 секунды
 
Цитата
sharkson пишет:
Проверьте файл роботс на ошибки через Вебмастер Яндекса и гугла.

нет ошибок и предупреждений
Цитата
Zhezkazganetcs пишет:
нет, мейлру разрешить все
точнее сделал как гуглу
Тогда можно продублировать тоже что и гуглу - заменив название бота на нужное.
Цитата
sharkson пишет:
Тогда можно продублировать тоже что и гуглу - заменив название бота на нужное.
да, я уже сделалтеперь наблюдать буду
но вроде немного Отфильтрованы по статистическим правилам затормозилось
Проще конечно вспомнить время и посмотреть когда были всплески нагрузки в панели хостера. Потом поискать по логам доступа - какая сволочь это вызвала. И забанить ее по агенту и\или по айпи.
время почему то обеденное
где эти логи могут быть? в какой категории или

ответ хостера

Код
Видим, что нагрузка на хостинг создается при обращении к файлу index.php сайта site.ru
ххххх 2401604 12.5 0.0 390476 52536 ? Rs 10:26 0:01 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401629 12.8 0.0 390476 52864 ? Rs 10:26 0:01 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401756 14.1 0.0 388428 51576 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401825 14.2 0.0 388172 50920 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2401844 13.4 0.0 384468 47124 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402084 16.0 0.0 373456 36692 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402118 13.0 0.0 369576 32336 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php
ххххх 2402202 15.0 0.0 365260 27944 ? Rs 10:26 0:00 lsphp:/home/ххххх/site.ru/index.php

Фиксируем следующие обращения к вашему сайту:

693 141.8.142.34
664 5.45.207.33
630 178.154.171.88
530 5.45.207.67
429 141.8.132.40
330 94.245.133.48
290 213.180.203.19
260 93.157.45.114
225 18.233.194.247
213 66.249.92.130


пока написал хостеру, чтобы подсказал где это все искать и смотреть, но пока ответа нет
Цитата
Zhezkazganetcs пишет:
ложат сайт, что появляется 508 ошибка
как решить проблему?
Вариант приобретения нормального хостинга был? smile:)
Самый быстрый хостинг на SSD. Месяц в подарок. Поддержка 24/7. Помощь в переезде.

Передовое сообщество вебмастеров. Тебе к нам!
Цитата
Zhezkazganetcs пишет:
693 141.8.142.34
664 5.45.207.33
630 178.154.171.88
530 5.45.207.67
429 141.8.132.40
330 94.245.133.48
290 213.180.203.19
260 93.157.45.114
225 18.233.194.247
213 66.249.92.130

7 из 10 ip  в этом списке принадлежат яндекс ботам.




Цитата
Zhezkazganetcs пишет:
Код
 Видим, что нагрузка на хостинг создается при обращении к файлу index.php  
Что за CMS у вас или самопис?
Попробуйте с кэшированием поэксперементировать... да и о смене хостинга как сказано выше может стоить подумать smile:)
Цитата
Артем Малков пишет:
Вариант приобретения нормального хостинга был? smile:)
хостинг самый лучший в беларуси!

Цитата
MrLexKo пишет:
Что за CMS у вас или самопис?

wordpress + WP Super Cache
проблема началась недели 2 назад, когда начали активно посещать роботы
Цитата
Zhezkazganetcs пишет:
проблема началась недели 2 назад , когда начали активно посещать роботы
Когда роботы Яндекса кладут сайт - это ненормальная ситуация и так быть не должно. Не знаю что у вас за хостинг, но у меня на сайтах боты поисковиков посещают очень часто, с одного вообще не вылазят. Никогда не было чтобы какие-либо боты клали сайт.
Страницы: Пред. 1 2 3 4 След.
Читают тему (гостей: 1, пользователей: 0, из них скрытых: 0)
Новые темыОбъявленияСвободное общение
21:18 Webvork - международная товарная СРА сеть с сертифицированными офферами на Европу. 
21:06 Кто как борется с ботами ПФ? 
16:51 Buymedia.biz - рекламная сеть 
13:36 Партнерская программа OWNR WALLET 
14:10 3snet - гемблинг, беттинг, форекс, бинарные опционы, майнинг 
11:52 Партнерская программа Xoffers с прямыми офферами в вертикалях форекс, крипта и бинарные опционы. 
22:22 DreamCash.tl - заработок на онлайн-видео. До 95% отчислений, отличный конверт! 
19:40 Высококачественные и надежные прокси-серверы и 5G 
16:16 ZennoPoster - софт №1 для автоматизации любых SEO задач! 
15:55 - Вечные ссылки с трастовых сайтов 2024 проверен FastTrust 
11:40 Криптовалютный обменник Xgram.io - новое воплощение качества 
11:10 4G/LTE Mobile Proxy 30+ geo  
10:21 TETChange-Обменник криптовалют 
22:58 Продам обменник криптовалюты, а также новый обменник под ключ с обучением. Скидки на скрипты обменника 
02:05 Точные прогнозы на футбол 
15:43 Заказать телефонный флуд. 
12:05 Ням-ням! - 8 деликатесов, которые когда-то ели только бедные люди 
11:25 Флуд звонками 
11:40 Кто сделает прогон для адалт сайта? 
09:25 Добро пожаловать в цифровой мир... 
10:31 Видимо, похороны СУПРа уже прошли как-то по-тихому