Поиск по блогу:

Боты, нагрузка на хостинг, заблокировать ботовый трафик 👇

Если у вас на сайте боты, нагрузка на хостинг растёт, вам не нужно администрирование, вам нужно снизить процессорное время и для этого идём и выгружаем логи доступа к сайту, если не знаем — пишем в техподдержку получаем инструкцию. Далее в логах ДОМЕН/ log (access_log) смотрим User-Agent к примеру видим подобные строки «URLy.Warning». Ниже подробнее.

Внимание: После внедрения на ваши веб-сервера и хостинг-провайдера этого решения, стоит через вебмастер Yandex и вебмастер Google пройтись и проверить, случайно ли вы не затронули поисковые боты сайтов.

Вы должны знать, что атака ботов, может быть не умышленной, а просто стечением обстоятельств, если ваш сайт набирает популярность, то всякие парсеры хотят собрать с него аналитику. В конечном случае снижения нагрузки улучшает SEO оптимизацию..

Пару лет назад, еще в 2009-10 годах торговал ссылками, мутил беспонтовым MFA/сплоги, сателлиты и другую кашу, начитавшись о способах заработка, но помимо денег меня больше всего интересовал принцып работы и сам результат. То что сайт приносил пару центов, мне приносило радости столько, если бы он приносил существенные деньги для проживания. Короче это любовь к результату =).

Интернет развивается, рождается много сервисов, которые выкачивают ваши сайты, то ли целиком, то ли собирают ссылки, кто-то прочёркивает на уязвимости, другие парсят для анализа и все это делается не одной компанией, а уже сотнями только в рунете, но мы понимаем интернет не заканчивается тут, он удивляет какой большой и к нам приходят парсеры и сервисы забугорные, которые, тоже выкачивают тонны трафика который никак не приносит нам выгоды, а наоборот нам приходится повышать тариф на хостинге и платить за этот холостой трафик.

Ранее вам написал, страдал слабыми сайтами ради опыта, так вот уже тогда использовал файл .htaccess в который набивал запрет ботам на доступ к сайту. Но сейчас, уже летаю высоко и поэтому у меня не дешевые хостинги, вполне недешевые аккаунты, и тут на одном из них уведомление о том что нагрузка превышает лимиты, при этом вижу трафик на сайтах на месте, никак не вырос =(

Сообщение:

На Вашем тарифном плане разрешенная статическая нагрузка 50cp, однако
за последние 7 дней среднее значение нагрузки превышает 62cp.

Ну тут зашел и вижу что помимо уникальных, которые выкачивают сайт дабы посмотреть, , приплыли всякие боты и тупо выкачивают сайт =(, все это очень негативно сказывается на самом сайте. К примеру, пришел тот самый нужный бот Яндекса индексировать наш ресурс и тут вообще левые боты нагрузили сервак и наш сайт отдает либо ошибку, либо задержку, в этот момент Яндекс может схавать страницы ошибок или вообще не схавать и уже в следующий раз так часто не будет заходить.

Проблемы, которые создают ненужные нам боты нам ненужны и поэтому мы их будем банить, вот списочек, советую дополнять в комментах к посту. Ботов нарыл на форуме сёрч и еще на каком-то проггерском форуме, отсортировал по алфавиту крутой прогой AutoFormat

Сам актуальный список и «простейший скрипт» под .htaccess

 "FavIconizer" 
 "WordPress" 
 "SMTBot" 
 "SemrushBot" 
 "AhrefsBot" 
 "ia_archiver" 
 "Ezooms" 
 "Sogou web spider" 
 "proximic" 
 "Wotbox" 
 "MJ12bot" 
 "TurnitinBot" 
 "Exabot" 
 "Webster" 
 "Sunrise" 
 "Custo" 
 "Python-urllib" 
 "metauri" 
 "rpt-httpclient" 
 "Apache-HttpClient" 
 "DotBot" 
 "Java/1" 
 "Cliqzbot" 
 "SeopultContentAnalyzer" 
 "Runet-Research-Crawler" 
 "python-requests" 
 "WhatCMSBot" 
 "OPiOS" 
 "admantx-adform" 
 "Supra-Bot" 
 "NetpeakCheckerBot" 
 "Go-http-client" 
 "magpie-crawler" 
 "CCBot" 
 "WebDataStats" 
 "COIBotParser" 
 "Streamline3Bot" 
 "Wfuzz" 
 "GrapeshotCrawler" 
 "Dalvik" 
 "America Online Browser" 
 "www.ru" 
 "pc-linux-gnu" 
 "Jersey" 
 "HttpUrlConnection" 
 "360Spider" 
 "golden-praga.ru" 
 "levdekor.ru" 
 "goldsoch.com" 
 "redditbot" 
 "Adstxtaggregator.com" 
 "GuzzleHttp" 
 "TheFreeDictionary" 
 "VelenPublicWebCrawler" 
 "Qwantify" 
 "rogerbot" 
 "Researchscan" 
 "SeznamBot" 
 "trendiction" 
 "coccocbot-web" 
 "moz.com" 
 "filehost.pro" 
 "mobile-appster.ru" 
 "bboom.pro" 
 "prahago.com" 
 "onko-24.com" 
 "ccc.sb" 
 "hotblognetwork.com" 
 "miaxxx.com" 
 "surfe.be" 
 "bablosoft.com" 
 "fetlifeblog.com" 
 "lang-spb.ru" 
 "WinHttp.WinHttpRequest.5" 
 "BLEXBot" 
 "FlipboardProxy" 
 "aiHitBot" 
 "trovitBot" 
 "BUbiNG" 
 "MauiBot" 
 "LinkpadBot" 
 "Riddler" 
 "dotbot" 
 "Detectify" 
 "CheckMarkNetwork" 
 "boeuklad.com" 
 "sexuria.net" 
 "lapplebi.com" 
 "lua-resty-http" 
 "Zend\Http\Client" 
 "Wget/1" 
 "SurdotlyBot" 
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=
</Limit>

Второй вариант, как блокировать спамный реферальный трафик, даёт безопасность от XXX сайтов, снижает на процессор мусорную посещаемость.

RewriteEngine on
RewriteRule ^botoviy_domen\.ru - [NC,F]

Помимо, советую прописывать директиву Crawl-delay: 5 в вашем файле robots.txt, это задержка в секундах, желательно всем роботам ее дать (замедленная индексация), что касается вообще плохих хостингов или дешевых под сателлиты совсем низко посещаемые. Также использовал ранее под хостинг под Sape тут
Настройте кэширование, обычно в CMS системах управления сайтов уже существуют встроенные варианты кеширования, иногда нужно найти реализацию плагина. Страницу в кеше, сервер отдает как файл и не исполняет её лишний раз, тем самым снимая нагрузку и не даёт ботам мучить ваш сайт.

= = =
Бесплатно и браузерами можно улучшить индексацию страниц, отзывы тут.

Все статьи и новости → Подписаться на Telegram

Понравилась статья? Зашарить инфу в социальных сетях ↓
.htaccess, бесплатно, нагрузка на хостинг, хостинг
Именно твой/ваш комментарий для автора украсит сегодняшний вечер.

Комментарии к посту: Боты, нагрузка на хостинг, заблокировать ботовый трафик