Боты, нагрузка на хостинг, заблокировать ботовый трафик 👇
Если у вас на сайте боты, нагрузка на хостинг растёт, вам не нужно администрирование, вам нужно снизить процессорное время и для этого идём и выгружаем логи доступа к сайту, если не знаем — пишем в техподдержку получаем инструкцию. Далее в логах ДОМЕН/ log (access_log) смотрим User-Agent к примеру видим подобные строки «URLy.Warning». Ниже подробнее.
Внимание: После внедрения на ваши веб-сервера и хостинг-провайдера этого решения, стоит через вебмастер Yandex и вебмастер Google пройтись и проверить, случайно ли вы не затронули поисковые боты сайтов.
Вы должны знать, что атака ботов, может быть не умышленной, а просто стечением обстоятельств, если ваш сайт набирает популярность, то всякие парсеры хотят собрать с него аналитику. В конечном случае снижения нагрузки улучшает SEO оптимизацию..
Пару лет назад, еще в 2009-10 годах торговал ссылками, мутил беспонтовым MFA/сплоги, сателлиты и другую кашу, начитавшись о способах заработка, но помимо денег меня больше всего интересовал принцып работы и сам результат. То что сайт приносил пару центов, мне приносило радости столько, если бы он приносил существенные деньги для проживания. Короче это любовь к результату =).
Интернет развивается, рождается много сервисов, которые выкачивают ваши сайты, то ли целиком, то ли собирают ссылки, кто-то прочёркивает на уязвимости, другие парсят для анализа и все это делается не одной компанией, а уже сотнями только в рунете, но мы понимаем интернет не заканчивается тут, он удивляет какой большой и к нам приходят парсеры и сервисы забугорные, которые, тоже выкачивают тонны трафика который никак не приносит нам выгоды, а наоборот нам приходится повышать тариф на хостинге и платить за этот холостой трафик.
Ранее вам написал, страдал слабыми сайтами ради опыта, так вот уже тогда использовал файл .htaccess в который набивал запрет ботам на доступ к сайту. Но сейчас, уже летаю высоко и поэтому у меня не дешевые хостинги, вполне недешевые аккаунты, и тут на одном из них уведомление о том что нагрузка превышает лимиты, при этом вижу трафик на сайтах на месте, никак не вырос =(
Сообщение:
На Вашем тарифном плане разрешенная статическая нагрузка 50cp, однако
за последние 7 дней среднее значение нагрузки превышает 62cp.
Ну тут зашел и вижу что помимо уникальных, которые выкачивают сайт дабы посмотреть, , приплыли всякие боты и тупо выкачивают сайт =(, все это очень негативно сказывается на самом сайте. К примеру, пришел тот самый нужный бот Яндекса индексировать наш ресурс и тут вообще левые боты нагрузили сервак и наш сайт отдает либо ошибку, либо задержку, в этот момент Яндекс может схавать страницы ошибок или вообще не схавать и уже в следующий раз так часто не будет заходить.
Проблемы, которые создают ненужные нам боты нам ненужны и поэтому мы их будем банить, вот списочек, советую дополнять в комментах к посту. Ботов нарыл на форуме сёрч и еще на каком-то проггерском форуме, отсортировал по алфавиту крутой прогой AutoFormat
Сам актуальный список и «простейший скрипт» под .htaccess
"FavIconizer" "WordPress" "SMTBot" "SemrushBot" "AhrefsBot" "ia_archiver" "Ezooms" "Sogou web spider" "proximic" "Wotbox" "MJ12bot" "TurnitinBot" "Exabot" "Webster" "Sunrise" "Custo" "Python-urllib" "metauri" "rpt-httpclient" "Apache-HttpClient" "DotBot" "Java/1" "Cliqzbot" "SeopultContentAnalyzer" "Runet-Research-Crawler" "python-requests" "WhatCMSBot" "OPiOS" "admantx-adform" "Supra-Bot" "NetpeakCheckerBot" "Go-http-client" "magpie-crawler" "CCBot" "WebDataStats" "COIBotParser" "Streamline3Bot" "Wfuzz" "GrapeshotCrawler" "Dalvik" "America Online Browser" "www.ru" "pc-linux-gnu" "Jersey" "HttpUrlConnection" "360Spider" "golden-praga.ru" "levdekor.ru" "goldsoch.com" "redditbot" "Adstxtaggregator.com" "GuzzleHttp" "TheFreeDictionary" "VelenPublicWebCrawler" "Qwantify" "rogerbot" "Researchscan" "SeznamBot" "trendiction" "coccocbot-web" "moz.com" "filehost.pro" "mobile-appster.ru" "bboom.pro" "prahago.com" "onko-24.com" "ccc.sb" "hotblognetwork.com" "miaxxx.com" "surfe.be" "bablosoft.com" "fetlifeblog.com" "lang-spb.ru" "WinHttp.WinHttpRequest.5" "BLEXBot" "FlipboardProxy" "aiHitBot" "trovitBot" "BUbiNG" "MauiBot" "LinkpadBot" "Riddler" "dotbot" "Detectify" "CheckMarkNetwork" "boeuklad.com" "sexuria.net" "lapplebi.com" "lua-resty-http" "Zend\Http\Client" "Wget/1" "SurdotlyBot" <Limit GET POST HEAD> Order Allow,Deny Allow from all Deny from env= </Limit>
Второй вариант, как блокировать спамный реферальный трафик, даёт безопасность от XXX сайтов, снижает на процессор мусорную посещаемость.
RewriteEngine on RewriteRule ^botoviy_domen\.ru - [NC,F]
Помимо, советую прописывать директиву Crawl-delay: 5 в вашем файле robots.txt, это задержка в секундах, желательно всем роботам ее дать (замедленная индексация), что касается вообще плохих хостингов или дешевых под сателлиты совсем низко посещаемые. Также использовал ранее под хостинг под Sape тут
Настройте кэширование, обычно в CMS системах управления сайтов уже существуют встроенные варианты кеширования, иногда нужно найти реализацию плагина. Страницу в кеше, сервер отдает как файл и не исполняет её лишний раз, тем самым снимая нагрузку и не даёт ботам мучить ваш сайт.
= = =
Бесплатно и браузерами можно улучшить индексацию страниц, отзывы тут.