Боты, нагрузка на хостинг, заблокировать ботовый трафик 💎
Если у вас на сайте боты, нагрузка на хостинг растёт, вам не нужно администрирование, вам нужно снизить процессорное время и для этого идём и выгружаем логи доступа к сайту, если не знаем как пишем в техподдержку получаем инструкцию. Далее в логах ДОМЕН/ log (access_log) смотрим User-Agent к примеру видим подобные строки «URLy.Warning». Ниже подробнее.
Внимание: После внедрения на ваши веб-сервера и хостинг-провайдера этого решения, стоит через вебмастер Yandex и вебмастер Google пройтись и проверить, случайно ли вы не затронули поисковые боты сайтов.
Вы должны знать, что атака ботов, может быть не умышленной, а просто стечением обстоятельств, если ваш сайт набирает популярность, то всякие парсеры хотят собрать с него аналитику. В конечном случае снижения нагрузки улучшает SEO оптимизацию..
Пару лет назад, еще в 2009-10 годах торговал ссылками, мутил беспонтовым MFA/сплоги, сателлиты и другую кашу, начитавшись о способах заработка, но помимо денег меня больше всего интересовало как это работает и сам результат. То что сайт приносил пару центов, мне приносило радости столько, если бы он приносил существенные деньги для проживания. Короче это любовь к результату =).
Интернет развивается, рождается много сервисов, которые выкачивают ваши сайты, то ли целиком, то ли собирают ссылки, кто-то прочёркивает на уязвимости, другие парсят для анализа и все это делается не одной компанией, а уже сотнями только в рунете, но как мы понимаем интернет не заканчивается тут, он удивляет какой большой и к нам приходят парсеры и сервисы забугорные, которые, тоже выкачивают тонны трафика который никак не приносит нам выгоды, а наоборот нам приходится повышать тариф на хостинге и платить за этот холостой трафик.
Ранее как вам написал, страдал слабыми сайтами ради опыта, так вот уже тогда использовал файл .htaccess в который набивал запрет ботам на доступ к сайту. Но сейчас, уже летаю высоко и поэтому у меня не дешевые хостинги, вполне недешевые аккаунты, и тут на одном из них уведомление о том что нагрузка превышает лимиты, при этом как вижу трафик на сайтах на месте, никак не вырос =(
Сообщение:
На Вашем тарифном плане разрешенная статическая нагрузка 50cp, однако
за последние 7 дней среднее значение нагрузки превышает 62cp.
Ну тут зашел и вижу что помимо уникальных, которые выкачивают сайт дабы посмотреть, что там и как, приплыли всякие боты и тупо выкачивают сайт =(, все это очень негативно сказывается на самом сайте. К примеру, пришел тот самый нужный бот Яндекса индексировать наш ресурс и тут вообще левые боты нагрузили сервак и наш сайт отдает либо ошибку, либо задержку, в этот момент Яндекс может схавать страницы ошибок или вообще не схавать и уже в следующий раз так часто не будет заходить.
Проблемы, которые создают ненужные нам боты нам ненужны и поэтому мы их будем банить, вот списочек, советую дополнять в комментах к посту. Ботов нарыл на форуме сёрч и еще на каком-то проггерском форуме, отсортировал по алфавиту крутой прогой AutoFormat
Сам актуальный список и «простейший скрипт» под .htaccess
SetEnvIfNoCase User-Agent "FavIconizer" bad_bot SetEnvIfNoCase User-Agent "WordPress" bad_bot SetEnvIfNoCase User-Agent "SMTBot" bad_bot SetEnvIfNoCase User-Agent "SemrushBot" bad_bot SetEnvIfNoCase User-Agent "AhrefsBot" bad_bot SetEnvIfNoCase User-Agent "ia_archiver" bad_bot SetEnvIfNoCase User-Agent "Ezooms" bad_bot SetEnvIfNoCase User-Agent "Sogou web spider" bad_bot SetEnvIfNoCase User-Agent "proximic" bad_bot SetEnvIfNoCase User-Agent "Wotbox" bad_bot SetEnvIfNoCase User-Agent "MJ12bot" bad_bot SetEnvIfNoCase User-Agent "TurnitinBot" bad_bot SetEnvIfNoCase User-Agent "Exabot" bad_bot SetEnvIfNoCase User-Agent "Webster" bad_bot SetEnvIfNoCase User-Agent "Sunrise" bad_bot SetEnvIfNoCase User-Agent "Custo" bad_bot SetEnvIfNoCase User-Agent "Python-urllib" bad_bot SetEnvIfNoCase User-Agent "metauri" bad_bot SetEnvIfNoCase User-Agent "rpt-httpclient" bad_bot SetEnvIfNoCase User-Agent "Apache-HttpClient" bad_bot SetEnvIfNoCase User-Agent "DotBot" bad_bot SetEnvIfNoCase User-Agent "Java/1" bad_bot SetEnvIfNoCase User-Agent "Cliqzbot" bad_bot SetEnvIfNoCase User-Agent "SeopultContentAnalyzer" bad_bot SetEnvIfNoCase User-Agent "Runet-Research-Crawler" bad_bot SetEnvIfNoCase User-Agent "python-requests" bad_bot SetEnvIfNoCase User-Agent "WhatCMSBot" bad_bot SetEnvIfNoCase User-Agent "OPiOS" bad_bot SetEnvIfNoCase User-Agent "admantx-adform" bad_bot SetEnvIfNoCase User-Agent "Supra-Bot" bad_bot SetEnvIfNoCase User-Agent "NetpeakCheckerBot" bad_bot SetEnvIfNoCase User-Agent "Go-http-client" bad_bot SetEnvIfNoCase User-Agent "magpie-crawler" bad_bot SetEnvIfNoCase User-Agent "CCBot" bad_bot SetEnvIfNoCase User-Agent "WebDataStats" bad_bot SetEnvIfNoCase User-Agent "COIBotParser" bad_bot SetEnvIfNoCase User-Agent "Streamline3Bot" bad_bot SetEnvIfNoCase User-Agent "Wfuzz" bad_bot SetEnvIfNoCase User-Agent "GrapeshotCrawler" bad_bot SetEnvIfNoCase User-Agent "Dalvik" bad_bot SetEnvIfNoCase User-Agent "America Online Browser" bad_bot SetEnvIfNoCase User-Agent "www.ru" bad_bot SetEnvIfNoCase User-Agent "pc-linux-gnu" bad_bot SetEnvIfNoCase User-Agent "Jersey" bad_bot SetEnvIfNoCase User-Agent "HttpUrlConnection" bad_bot SetEnvIfNoCase User-Agent "360Spider" bad_bot SetEnvIfNoCase User-Agent "golden-praga.ru" bad_bot SetEnvIfNoCase User-Agent "levdekor.ru" bad_bot SetEnvIfNoCase User-Agent "goldsoch.com" bad_bot SetEnvIfNoCase User-Agent "redditbot" bad_bot SetEnvIfNoCase User-Agent "Adstxtaggregator.com" bad_bot SetEnvIfNoCase User-Agent "GuzzleHttp" bad_bot SetEnvIfNoCase User-Agent "TheFreeDictionary" bad_bot SetEnvIfNoCase User-Agent "VelenPublicWebCrawler" bad_bot SetEnvIfNoCase User-Agent "Qwantify" bad_bot SetEnvIfNoCase User-Agent "rogerbot" bad_bot SetEnvIfNoCase User-Agent "Researchscan" bad_bot SetEnvIfNoCase User-Agent "SeznamBot" bad_bot SetEnvIfNoCase User-Agent "trendiction" bad_bot SetEnvIfNoCase User-Agent "coccocbot-web" bad_bot SetEnvIfNoCase User-Agent "moz.com" bad_bot SetEnvIfNoCase User-Agent "filehost.pro" bad_bot SetEnvIfNoCase User-Agent "mobile-appster.ru" bad_bot SetEnvIfNoCase User-Agent "bboom.pro" bad_bot SetEnvIfNoCase User-Agent "prahago.com" bad_bot SetEnvIfNoCase User-Agent "onko-24.com" bad_bot SetEnvIfNoCase User-Agent "ccc.sb" bad_bot SetEnvIfNoCase User-Agent "hotblognetwork.com" bad_bot SetEnvIfNoCase User-Agent "miaxxx.com" bad_bot SetEnvIfNoCase User-Agent "surfe.be" bad_bot SetEnvIfNoCase User-Agent "bablosoft.com" bad_bot SetEnvIfNoCase User-Agent "fetlifeblog.com" bad_bot SetEnvIfNoCase User-Agent "lang-spb.ru" bad_bot SetEnvIfNoCase User-Agent "WinHttp.WinHttpRequest.5" bad_bot SetEnvIfNoCase User-Agent "BLEXBot" bad_bot SetEnvIfNoCase User-Agent "FlipboardProxy" bad_bot SetEnvIfNoCase User-Agent "aiHitBot" bad_bot SetEnvIfNoCase User-Agent "trovitBot" bad_bot SetEnvIfNoCase User-Agent "BUbiNG" bad_bot SetEnvIfNoCase User-Agent "MauiBot" bad_bot SetEnvIfNoCase User-Agent "LinkpadBot" bad_bot SetEnvIfNoCase User-Agent "Riddler" bad_bot SetEnvIfNoCase User-Agent "dotbot" bad_bot SetEnvIfNoCase User-Agent "Detectify" bad_bot SetEnvIfNoCase User-Agent "CheckMarkNetwork" bad_bot SetEnvIfNoCase User-Agent "boeuklad.com" bad_bot SetEnvIfNoCase User-Agent "sexuria.net" bad_bot SetEnvIfNoCase User-Agent "lapplebi.com" bad_bot SetEnvIfNoCase User-Agent "lua-resty-http" bad_bot SetEnvIfNoCase User-Agent "Zend\Http\Client" bad_bot SetEnvIfNoCase User-Agent "Wget/1" bad_bot SetEnvIfNoCase User-Agent "SurdotlyBot" bad_bot <Limit GET POST HEAD> Order Allow,Deny Allow from all Deny from env=bad_bot </Limit>
Второй вариант, как блокировать спамный реферальный трафик, даёт безопасность от XXX сайтов, снижает на процессор мусорную посещаемость.
RewriteEngine on RewriteRule ^botoviy_domen\.ru - [NC,F]
Помимо, советую прописывать директиву Crawl-delay: 5 в вашем файле robots.txt, это задержка в секундах, желательно всем роботам ее дать (замедленная индексация), что касается вообще плохих хостингов или дешевых под сателлиты совсем низко посещаемые. Также использовал ранее под хостинг под Sape тут
Настройте кэширование, обычно в CMS системах управления сайтов уже существуют встроенные варианты кеширования, иногда нужно найти реализацию плагина. Страницу в кеше, сервер отдает как файл и не исполняет её лишний раз, тем самым снимая нагрузку и не даёт ботам мучить ваш сайт.
= = =
Бесплатно и браузерами можно улучшить индексацию страниц, отзывы тут.