Что-то свежее пишу на канале Телеграмм тут: https://t.me/wlad2chanel
Поиск по блогу:

Боты, нагрузка на хостинг, заблокировать ботовый трафик 💎

23 марта 2013

Если у вас на сайте боты, нагрузка на хостинг растёт, вам не нужно администрирование, вам нужно снизить процессорное время и для этого идём и выгружаем логи доступа к сайту, если не знаем как пишем в техподдержку получаем инструкцию. Далее в логах ДОМЕН/ log (access_log) смотрим User-Agent к примеру видим подобные строки «URLy.Warning». Ниже подробнее.

Внимание: После внедрения на ваши веб-сервера и хостинг-провайдера этого решения, стоит через вебмастер Yandex и вебмастер Google пройтись и проверить, случайно ли вы не затронули поисковые боты сайтов.

Вы должны знать, что атака ботов, может быть не умышленной, а просто стечением обстоятельств, если ваш сайт набирает популярность, то всякие парсеры хотят собрать с него аналитику. В конечном случае снижения нагрузки улучшает SEO оптимизацию..

Пару лет назад, еще в 2009-10 годах торговал ссылками, мутил беспонтовым MFA/сплоги, сателлиты и другую кашу, начитавшись о способах заработка, но помимо денег меня больше всего интересовало как это работает и сам результат. То что сайт приносил пару центов, мне приносило радости столько, если бы он приносил существенные деньги для проживания. Короче это любовь к результату =).

Интернет развивается, рождается много сервисов, которые выкачивают ваши сайты, то ли целиком, то ли собирают ссылки, кто-то прочёркивает на уязвимости, другие парсят для анализа и все это делается не одной компанией, а уже сотнями только в рунете, но как мы понимаем интернет не заканчивается тут, он удивляет какой большой и к нам приходят парсеры и сервисы забугорные, которые, тоже выкачивают тонны трафика который никак не приносит нам выгоды, а наоборот нам приходится повышать тариф на хостинге и платить за этот холостой трафик.

Ранее как вам написал, страдал слабыми сайтами ради опыта, так вот уже тогда использовал файл .htaccess в который набивал запрет ботам на доступ к сайту. Но сейчас, уже летаю высоко и поэтому у меня не дешевые хостинги, вполне недешевые аккаунты, и тут на одном из них уведомление о том что нагрузка превышает лимиты, при этом как вижу трафик на сайтах на месте, никак не вырос =(

Сообщение:

На Вашем тарифном плане разрешенная статическая нагрузка 50cp, однако
за последние 7 дней среднее значение нагрузки превышает 62cp.

Ну тут зашел и вижу что помимо уникальных, которые выкачивают сайт дабы посмотреть, что там и как, приплыли всякие боты и тупо выкачивают сайт =(, все это очень негативно сказывается на самом сайте. К примеру, пришел тот самый нужный бот Яндекса индексировать наш ресурс и тут вообще левые боты нагрузили сервак и наш сайт отдает либо ошибку, либо задержку, в этот момент Яндекс может схавать страницы ошибок или вообще не схавать и уже в следующий раз так часто не будет заходить.

Проблемы, которые создают ненужные нам боты нам ненужны и поэтому мы их будем банить, вот списочек, советую дополнять в комментах к посту. Ботов нарыл на форуме сёрч и еще на каком-то проггерском форуме, отсортировал по алфавиту крутой прогой AutoFormat

Сам актуальный список и «простейший скрипт» под .htaccess

SetEnvIfNoCase User-Agent "FavIconizer" bad_bot
SetEnvIfNoCase User-Agent "WordPress" bad_bot
SetEnvIfNoCase User-Agent "SMTBot" bad_bot
SetEnvIfNoCase User-Agent "SemrushBot" bad_bot
SetEnvIfNoCase User-Agent "AhrefsBot" bad_bot
SetEnvIfNoCase User-Agent "ia_archiver" bad_bot
SetEnvIfNoCase User-Agent "Ezooms" bad_bot
SetEnvIfNoCase User-Agent "Sogou web spider" bad_bot
SetEnvIfNoCase User-Agent "proximic" bad_bot
SetEnvIfNoCase User-Agent "Wotbox" bad_bot
SetEnvIfNoCase User-Agent "MJ12bot" bad_bot
SetEnvIfNoCase User-Agent "TurnitinBot" bad_bot
SetEnvIfNoCase User-Agent "Exabot" bad_bot
SetEnvIfNoCase User-Agent "Webster" bad_bot
SetEnvIfNoCase User-Agent "Sunrise" bad_bot
SetEnvIfNoCase User-Agent "Custo" bad_bot
SetEnvIfNoCase User-Agent "Python-urllib" bad_bot
SetEnvIfNoCase User-Agent "metauri" bad_bot
SetEnvIfNoCase User-Agent "rpt-httpclient" bad_bot
SetEnvIfNoCase User-Agent "Apache-HttpClient" bad_bot
SetEnvIfNoCase User-Agent "DotBot" bad_bot
SetEnvIfNoCase User-Agent "Java/1" bad_bot
SetEnvIfNoCase User-Agent "Cliqzbot" bad_bot
SetEnvIfNoCase User-Agent "SeopultContentAnalyzer" bad_bot
SetEnvIfNoCase User-Agent "Runet-Research-Crawler" bad_bot
SetEnvIfNoCase User-Agent "python-requests" bad_bot
SetEnvIfNoCase User-Agent "WhatCMSBot" bad_bot
SetEnvIfNoCase User-Agent "OPiOS" bad_bot
SetEnvIfNoCase User-Agent "admantx-adform" bad_bot
SetEnvIfNoCase User-Agent "Supra-Bot" bad_bot
SetEnvIfNoCase User-Agent "NetpeakCheckerBot" bad_bot
SetEnvIfNoCase User-Agent "Go-http-client" bad_bot
SetEnvIfNoCase User-Agent "magpie-crawler" bad_bot
SetEnvIfNoCase User-Agent "CCBot" bad_bot
SetEnvIfNoCase User-Agent "WebDataStats" bad_bot
SetEnvIfNoCase User-Agent "COIBotParser" bad_bot
SetEnvIfNoCase User-Agent "Streamline3Bot" bad_bot
SetEnvIfNoCase User-Agent "Wfuzz" bad_bot
SetEnvIfNoCase User-Agent "GrapeshotCrawler" bad_bot
SetEnvIfNoCase User-Agent "Dalvik" bad_bot
SetEnvIfNoCase User-Agent "America Online Browser" bad_bot
SetEnvIfNoCase User-Agent "www.ru" bad_bot
SetEnvIfNoCase User-Agent "pc-linux-gnu" bad_bot
SetEnvIfNoCase User-Agent "Jersey" bad_bot
SetEnvIfNoCase User-Agent "HttpUrlConnection" bad_bot
SetEnvIfNoCase User-Agent "360Spider" bad_bot
SetEnvIfNoCase User-Agent "golden-praga.ru" bad_bot
SetEnvIfNoCase User-Agent "levdekor.ru" bad_bot
SetEnvIfNoCase User-Agent "goldsoch.com" bad_bot
SetEnvIfNoCase User-Agent "redditbot" bad_bot
SetEnvIfNoCase User-Agent "Adstxtaggregator.com" bad_bot
SetEnvIfNoCase User-Agent "GuzzleHttp" bad_bot
SetEnvIfNoCase User-Agent "TheFreeDictionary" bad_bot
SetEnvIfNoCase User-Agent "VelenPublicWebCrawler" bad_bot
SetEnvIfNoCase User-Agent "Qwantify" bad_bot
SetEnvIfNoCase User-Agent "rogerbot" bad_bot
SetEnvIfNoCase User-Agent "Researchscan" bad_bot
SetEnvIfNoCase User-Agent "SeznamBot" bad_bot
SetEnvIfNoCase User-Agent "trendiction" bad_bot
SetEnvIfNoCase User-Agent "coccocbot-web" bad_bot
SetEnvIfNoCase User-Agent "moz.com" bad_bot
SetEnvIfNoCase User-Agent "filehost.pro" bad_bot
SetEnvIfNoCase User-Agent "mobile-appster.ru" bad_bot
SetEnvIfNoCase User-Agent "bboom.pro" bad_bot
SetEnvIfNoCase User-Agent "prahago.com" bad_bot
SetEnvIfNoCase User-Agent "onko-24.com" bad_bot
SetEnvIfNoCase User-Agent "ccc.sb" bad_bot
SetEnvIfNoCase User-Agent "hotblognetwork.com" bad_bot
SetEnvIfNoCase User-Agent "miaxxx.com" bad_bot
SetEnvIfNoCase User-Agent "surfe.be" bad_bot
SetEnvIfNoCase User-Agent "bablosoft.com" bad_bot
SetEnvIfNoCase User-Agent "fetlifeblog.com" bad_bot
SetEnvIfNoCase User-Agent "lang-spb.ru" bad_bot
SetEnvIfNoCase User-Agent "WinHttp.WinHttpRequest.5" bad_bot
SetEnvIfNoCase User-Agent "BLEXBot" bad_bot
SetEnvIfNoCase User-Agent "FlipboardProxy" bad_bot
SetEnvIfNoCase User-Agent "aiHitBot" bad_bot
SetEnvIfNoCase User-Agent "trovitBot" bad_bot
SetEnvIfNoCase User-Agent "BUbiNG" bad_bot
SetEnvIfNoCase User-Agent "MauiBot" bad_bot
SetEnvIfNoCase User-Agent "LinkpadBot" bad_bot
SetEnvIfNoCase User-Agent "Riddler" bad_bot
SetEnvIfNoCase User-Agent "dotbot" bad_bot
SetEnvIfNoCase User-Agent "Detectify" bad_bot
SetEnvIfNoCase User-Agent "CheckMarkNetwork" bad_bot
SetEnvIfNoCase User-Agent "boeuklad.com" bad_bot
SetEnvIfNoCase User-Agent "sexuria.net" bad_bot
SetEnvIfNoCase User-Agent "lapplebi.com" bad_bot
SetEnvIfNoCase User-Agent "lua-resty-http" bad_bot
SetEnvIfNoCase User-Agent "Zend\Http\Client" bad_bot
SetEnvIfNoCase User-Agent "Wget/1" bad_bot
SetEnvIfNoCase User-Agent "SurdotlyBot" bad_bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

Второй вариант, как блокировать спамный реферальный трафик, даёт безопасность от XXX сайтов, снижает на процессор мусорную посещаемость.

RewriteEngine on
RewriteRule ^botoviy_domen\.ru - [NC,F]

Помимо, советую прописывать директиву Crawl-delay: 5 в вашем файле robots.txt, это задержка в секундах, желательно всем роботам ее дать (замедленная индексация), что касается вообще плохих хостингов или дешевых под сателлиты совсем низко посещаемые. Также использовал ранее под хостинг под Sape тут
Настройте кэширование, обычно в CMS системах управления сайтов уже существуют встроенные варианты кеширования, иногда нужно найти реализацию плагина. Страницу в кеше, сервер отдает как файл и не исполняет её лишний раз, тем самым снимая нагрузку и не даёт ботам мучить ваш сайт.

= = =
Бесплатно и браузерами можно улучшить индексацию страниц, отзывы тут.

Подписаться на Telegram
.htaccess, нагрузка на хостинг, хостинг
Может именно ты позволишь себе сейчас, запилить свой комментарий ниже, от автора моментальный респект и благодарность!?
Подписывайся на рассылку блога ↓, чтобы быть в курсе.
Категории блога
.com .htaccess .ru .рф 301 редирект Adsense adwords Ajax Alexa Analytics Blogspot CMS CMS wordpress CPA CSS CTR DLE DNS Dreamweaver статьи firefox FTP клиенты H1 HTML HTML теги icq ie JS ladycash letitbit livejournal интернете MFA MFS mosquito cms Google маркетинг nofollow noindex nolix opera pagerank phpbb robots.txt rss Sape SEO Description SeoQuake SEO плагины для wordpress seo программы для windows seo сервис seo софт sitemap sitemap.xml textpattern ucoz whois WMZ wr-board Xenu zebrum lite Базы Пастухова Бегет ВС Из жизни НЧ НЧ запросы Примеры MFA СДЛ ЧПУ агс анализ топа анкор арбитраж аудит сайта баннерная реклама бесплатно хостинг бэклинки веб-мастер вес страницы внешние ссылки внутренние ссылки внутренняя оптимизация вордстат яндекс граббер гс для истории домены дополнительный индекс дорвей женский сайт индексация сайта интервью итоги года карта сайта каталоги сайтов кейсы кириллица кириллические домены клоакинг комментарии wordpress конкурс контекстная реклама контент конфенция Маул мои сайты мой софт монетизация сайта наращивание ТИЦ ноутбук обзор сайта обмен постовыми основной индекс парсер партнерки для блоггеров перелинковка пинг поисковые тэги покупка ссылок покупные ссылки постовые правильные ссылки продажа ссылок продвижение запросов продвижение неизбежно произвольные поля развод редирект блог релевантность сателлиты свежий сайт сервисы серч сетка сайтов синонимайзер скрипт сми сниппет спам сплог ТИЦ трафик уникальность урлы файлообменник фильтр финстрип хостинг шаблон эксперименты юзабилити
Вкусности:
wlad2 2009 - 2024 - этот SEO Блог работает на WordPress © Copyright - Мы используем файлы Cookie для лучшего представления сайта (блога). Продолжая использовать сайт, вы соглашаетесь с использованием файлов Cookie. Политика конфиденциальности и Пользовательское соглашение - Карта сайта, рубрики блога - адрес почты Email me@wlad2.ru - ссылки на соцсети Вконтакте, YouTube. Если нужно продвинуть интернет-магазин? Пишите в форму.