Лечим Нагрузку на хостинг «ботами»

23 марта 2013

Не понятно по какой причине, но боты Яндекса находят запрет в строчках в результате я потерял на некоторых сайтах ряд страниц и затем и позиции по ним.

Пару лет назад, еще в 2009-10 годах торговал ссылками, мутил беспонтовые MFA/сплоги, сателлиты и другую кашу начитавшись о способах заработка, но помимо денег меня больше всего интересовало как это работает и сам результат. То что сайт приносил пару центов мне приносило радости столько-же, если бы он приносил существенные деньги для проживания. Короче это любовь к результату =)

Интерент развивается, рождается много сервисов которые выкачивают ваши сайты, то ли целиком, то ли собирают ссылки, кто-то прочекивает на уязвимости, другие парсят для анализа и все это делается не одной компанией, а уже сотнями только в рунете, но как мы понимаем интернет не заканчивается тут, он ахуеть какой большой и к нам приходят парсеры и сервисы забугорные, которые тоже выкачивают тонны трафика который никак не приносит нам выгоды, а наоборот нам приходится повышать тариф на хостинге и платить за этот холостой трафик.

Ранее как вам написал, страдал и пиздострадал слабыми сайтиками ради опыта, так вот уже тогда юзал файл .htaccess в который набивал запрет ботам на доступ к сайту. Но, сейчас я уже летаю высоко и поэтому у меня не дешевые хостинги, вполне не дешевые акки и тут на одном из них уведомление о том что нагрузка превышает лимиты, при этом как вижу трафик на сайтах на месте, никак не вырос (

месаг:

На Вашем тарифном плане разрешенная статическая нагрузка 50cp, однако
за последние 7 дней среднее значение нагрузки превышает 62cp.

Ну тут зашел и вижу что помимо уникалов которые выкачивают сайт дабы пофапать что там и как, поприлетали всякие боты и тупо выкачивают сайт ( все это очень негативно сказывается на самом сайте. К примеру, пришел тот самый нужный бот Яндекса хавать наш ресурс и тут ваще левые боты нагрузили сервак и наш сайт отдает либо ошибку, либо задежку, в этот момент Яндекс может схавать страницы ошибок или вообще не схавать и уже в следующий раз так часто не будет заходить.

Проблемы которые создают ненужные нам боты нам ненужны и поэтому мы их будем банить, вот списочек, советую дополнять в каментах к посту. Ботов нарыл на серче и еще на каком-то проггерском форуме, отсортировал по алфавиту крутой прогой AutoFormat

Сам список под .htaccess

SetEnvIfNoCase User-Agent "AESOP_com_SpiderMan" bad_bot
SetEnvIfNoCase User-Agent "AhrefsBot" bad_bot
SetEnvIfNoCase User-Agent "Alexibot" bad_bot
SetEnvIfNoCase User-Agent "Anonymouse.org" bad_bot
SetEnvIfNoCase User-Agent "asterias" bad_bot
SetEnvIfNoCase User-Agent "attach" bad_bot
SetEnvIfNoCase User-Agent "BackDoorBot" bad_bot
SetEnvIfNoCase User-Agent "BackWeb" bad_bot
SetEnvIfNoCase User-Agent "Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "Bandit" bad_bot
SetEnvIfNoCase User-Agent "BatchFTP" bad_bot
SetEnvIfNoCase User-Agent "Bigfoot" bad_bot
SetEnvIfNoCase User-Agent "Birubot" bad_bot
SetEnvIfNoCase User-Agent "Black.Hole" bad_bot
SetEnvIfNoCase User-Agent "BlackWidow" bad_bot
SetEnvIfNoCase User-Agent "BlowFish" bad_bot
SetEnvIfNoCase User-Agent "Bot mailto:craftbot@yahoo.com" bad_bot
SetEnvIfNoCase User-Agent "BotALot" bad_bot
SetEnvIfNoCase User-Agent "BTWebClient" bad_bot
SetEnvIfNoCase User-Agent "Buddy" bad_bot
SetEnvIfNoCase User-Agent "BuiltBotTough" bad_bot
SetEnvIfNoCase User-Agent "Bullseye" bad_bot
SetEnvIfNoCase User-Agent "BunnySlippers" bad_bot
SetEnvIfNoCase User-Agent "Butterfly" bad_bot
SetEnvIfNoCase User-Agent "CamontSpider" bad_bot
SetEnvIfNoCase User-Agent "Cegbfeieh" bad_bot
SetEnvIfNoCase User-Agent "CheeseBot" bad_bot
SetEnvIfNoCase User-Agent "CherryPicker" bad_bot
SetEnvIfNoCase User-Agent "ChinaClaw" bad_bot
SetEnvIfNoCase User-Agent "Collector" bad_bot
SetEnvIfNoCase User-Agent "CommentReader" bad_bot
SetEnvIfNoCase User-Agent "Copier" bad_bot
SetEnvIfNoCase User-Agent "CopyRightCheck" bad_bot
SetEnvIfNoCase User-Agent "cosmos" bad_bot
SetEnvIfNoCase User-Agent "Crescent" bad_bot
SetEnvIfNoCase User-Agent "Curl" bad_bot
SetEnvIfNoCase User-Agent "Custo" bad_bot
SetEnvIfNoCase User-Agent "DIIbot" bad_bot
SetEnvIfNoCase User-Agent "DISCo" bad_bot
SetEnvIfNoCase User-Agent "discobot" bad_bot
SetEnvIfNoCase User-Agent "DittoSpyder" bad_bot
SetEnvIfNoCase User-Agent "Dolphin" bad_bot
SetEnvIfNoCase User-Agent "DotBot" bad_bot
SetEnvIfNoCase User-Agent "Download Demon" bad_bot
SetEnvIfNoCase User-Agent "Download Devil" bad_bot
SetEnvIfNoCase User-Agent "Download Wonder" bad_bot
SetEnvIfNoCase User-Agent "Download" bad_bot
SetEnvIfNoCase User-Agent "Downloader" bad_bot
SetEnvIfNoCase User-Agent "dragonfly" bad_bot
SetEnvIfNoCase User-Agent "Drip" bad_bot
SetEnvIfNoCase User-Agent "EasyDL" bad_bot
SetEnvIfNoCase User-Agent "ebingbong" bad_bot
SetEnvIfNoCase User-Agent "eCatch" bad_bot
SetEnvIfNoCase User-Agent "EirGrabber" bad_bot
SetEnvIfNoCase User-Agent "EmailCollector" bad_bot
SetEnvIfNoCase User-Agent "EmailSiphon" bad_bot
SetEnvIfNoCase User-Agent "EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "EroCrawler" bad_bot
SetEnvIfNoCase User-Agent "Exabot" bad_bot
SetEnvIfNoCase User-Agent "Express WebPictures" bad_bot
SetEnvIfNoCase User-Agent "Extractor" bad_bot
SetEnvIfNoCase User-Agent "EyeNetIE" bad_bot
SetEnvIfNoCase User-Agent "Ezooms" bad_bot
SetEnvIfNoCase User-Agent "FairShare" bad_bot
SetEnvIfNoCase User-Agent "FileHound" bad_bot
SetEnvIfNoCase User-Agent "FlashGet" bad_bot
SetEnvIfNoCase User-Agent "flunky" bad_bot
SetEnvIfNoCase User-Agent "Foobot" bad_bot
SetEnvIfNoCase User-Agent "FrontPage" bad_bot
SetEnvIfNoCase User-Agent "GetRight" bad_bot
SetEnvIfNoCase User-Agent "GetSmart" bad_bot
SetEnvIfNoCase User-Agent "GetWeb!" bad_bot
SetEnvIfNoCase User-Agent "Gigabot" bad_bot
SetEnvIfNoCase User-Agent "Go!Zilla" bad_bot
SetEnvIfNoCase User-Agent "Go-Ahead-Got-It" bad_bot
SetEnvIfNoCase User-Agent "gold\ crawler" bad_bot
SetEnvIfNoCase User-Agent "gotit" bad_bot
SetEnvIfNoCase User-Agent "Grabber" bad_bot
SetEnvIfNoCase User-Agent "GrabNet" bad_bot
SetEnvIfNoCase User-Agent "Grafula" bad_bot
SetEnvIfNoCase User-Agent "Harvest" bad_bot
SetEnvIfNoCase User-Agent "hloader" bad_bot
SetEnvIfNoCase User-Agent "HMView" bad_bot
SetEnvIfNoCase User-Agent "httplib" bad_bot
SetEnvIfNoCase User-Agent "HTTrack" bad_bot
SetEnvIfNoCase User-Agent "humanlinks" bad_bot
SetEnvIfNoCase User-Agent "ia_archiver" bad_bot
SetEnvIfNoCase User-Agent "igdeSpyder" bad_bot
SetEnvIfNoCase User-Agent "IlseBot" bad_bot
SetEnvIfNoCase User-Agent "Image Stripper" bad_bot
SetEnvIfNoCase User-Agent "Image Sucker" bad_bot
SetEnvIfNoCase User-Agent "Indy Library" bad_bot
SetEnvIfNoCase User-Agent "InfoNaviRobot" bad_bot
SetEnvIfNoCase User-Agent "InfoTekies" bad_bot
SetEnvIfNoCase User-Agent "Intelliseek" bad_bot
SetEnvIfNoCase User-Agent "InterGET" bad_bot
SetEnvIfNoCase User-Agent "Internet Ninja" bad_bot
SetEnvIfNoCase User-Agent "InternetSeer" bad_bot
SetEnvIfNoCase User-Agent "Iria" bad_bot
SetEnvIfNoCase User-Agent "Jakarta" bad_bot
SetEnvIfNoCase User-Agent "Java" bad_bot
SetEnvIfNoCase User-Agent "JennyBot" bad_bot
SetEnvIfNoCase User-Agent "JetCar" bad_bot
SetEnvIfNoCase User-Agent "JOC" bad_bot
SetEnvIfNoCase User-Agent "JS-Kit" bad_bot
SetEnvIfNoCase User-Agent "JustView" bad_bot
SetEnvIfNoCase User-Agent "Jyxobot" bad_bot
SetEnvIfNoCase User-Agent "Kenjin.Spider" bad_bot
SetEnvIfNoCase User-Agent "Keyword.Density" bad_bot
SetEnvIfNoCase User-Agent "kmSearchBot" bad_bot
SetEnvIfNoCase User-Agent "larbin" bad_bot
SetEnvIfNoCase User-Agent "LeechFTP" bad_bot
SetEnvIfNoCase User-Agent "LexiBot" bad_bot
SetEnvIfNoCase User-Agent "lftp" bad_bot
SetEnvIfNoCase User-Agent "libWeb/clsHTTP" bad_bot
SetEnvIfNoCase User-Agent "libwww" bad_bot
SetEnvIfNoCase User-Agent "likse" bad_bot
SetEnvIfNoCase User-Agent "Linguee" bad_bot
SetEnvIfNoCase User-Agent "LinkExchanger" bad_bot
SetEnvIfNoCase User-Agent "LinkextractorPro" bad_bot
SetEnvIfNoCase User-Agent "LinkScan/8.1a.Unix" bad_bot
SetEnvIfNoCase User-Agent "LinkWalker" bad_bot
SetEnvIfNoCase User-Agent "LNSpiderguy" bad_bot
SetEnvIfNoCase User-Agent "LWP::Simple" bad_bot
SetEnvIfNoCase User-Agent "lwp-trivial" bad_bot
SetEnvIfNoCase User-Agent "Magnet" bad_bot
SetEnvIfNoCase User-Agent "Mag-Net" bad_bot
SetEnvIfNoCase User-Agent "MarkWatch" bad_bot
SetEnvIfNoCase User-Agent "Mass Downloader" bad_bot
SetEnvIfNoCase User-Agent "Mata.Hari" bad_bot
SetEnvIfNoCase User-Agent "Memo" bad_bot
SetEnvIfNoCase User-Agent "Microsoft URL Control" bad_bot
SetEnvIfNoCase User-Agent "Microsoft.URL" bad_bot
SetEnvIfNoCase User-Agent "MIDown tool" bad_bot
SetEnvIfNoCase User-Agent "MIIxpc" bad_bot
SetEnvIfNoCase User-Agent "Mirror" bad_bot
SetEnvIfNoCase User-Agent "Missigua Locator" bad_bot
SetEnvIfNoCase User-Agent "Mister PiX" bad_bot
SetEnvIfNoCase User-Agent "MJ12bot" bad_bot
SetEnvIfNoCase User-Agent "MLBot" bad_bot
SetEnvIfNoCase User-Agent "moget" bad_bot
SetEnvIfNoCase User-Agent "Mozilla.*NEWT" bad_bot
SetEnvIfNoCase User-Agent "Mozilla/3.Mozilla/2.01" bad_bot
SetEnvIfNoCase User-Agent "NAMEPROTECT" bad_bot
SetEnvIfNoCase User-Agent "Navroad" bad_bot
SetEnvIfNoCase User-Agent "NearSite" bad_bot
SetEnvIfNoCase User-Agent "Net Vampire" bad_bot
SetEnvIfNoCase User-Agent "NetAnts" bad_bot
SetEnvIfNoCase User-Agent "Netcraft" bad_bot
SetEnvIfNoCase User-Agent "NetMechanic" bad_bot
SetEnvIfNoCase User-Agent "NetSpider" bad_bot
SetEnvIfNoCase User-Agent "NetZIP" bad_bot
SetEnvIfNoCase User-Agent "NextGenSearchBot" bad_bot
SetEnvIfNoCase User-Agent "NICErsPRO" bad_bot
SetEnvIfNoCase User-Agent "NimbleCrawler" bad_bot
SetEnvIfNoCase User-Agent "Ninja" bad_bot
SetEnvIfNoCase User-Agent "NjuiceBot" bad_bot
SetEnvIfNoCase User-Agent "NPbot" bad_bot
SetEnvIfNoCase User-Agent "Nutch" bad_bot
SetEnvIfNoCase User-Agent "Octopus" bad_bot
SetEnvIfNoCase User-Agent "Offline Explorer" bad_bot
SetEnvIfNoCase User-Agent "Offline Navigator" bad_bot
SetEnvIfNoCase User-Agent "Openfind" bad_bot
SetEnvIfNoCase User-Agent "OutfoxBot" bad_bot
SetEnvIfNoCase User-Agent "PageGrabber" bad_bot
SetEnvIfNoCase User-Agent "Papa Foto" bad_bot
SetEnvIfNoCase User-Agent "pavuk" bad_bot
SetEnvIfNoCase User-Agent "pcBrowser" bad_bot
SetEnvIfNoCase User-Agent "PHP version tracker" bad_bot
SetEnvIfNoCase User-Agent "PHP" bad_bot
SetEnvIfNoCase User-Agent "Pockey" bad_bot
SetEnvIfNoCase User-Agent "PostRank" bad_bot
SetEnvIfNoCase User-Agent "ProPowerBot/2.14" bad_bot
SetEnvIfNoCase User-Agent "ProWebWalker" bad_bot
SetEnvIfNoCase User-Agent "psbot" bad_bot
SetEnvIfNoCase User-Agent "ptd-crawler" bad_bot
SetEnvIfNoCase User-Agent "Pump" bad_bot
SetEnvIfNoCase User-Agent "Purebot" bad_bot
SetEnvIfNoCase User-Agent "PycURL" bad_bot
SetEnvIfNoCase User-Agent "QueryN.Metasearch" bad_bot
SetEnvIfNoCase User-Agent "RealDownload" bad_bot
SetEnvIfNoCase User-Agent "Reaper" bad_bot
SetEnvIfNoCase User-Agent "Recorder" bad_bot
SetEnvIfNoCase User-Agent "ReGet" bad_bot
SetEnvIfNoCase User-Agent "RepoMonkey" bad_bot
SetEnvIfNoCase User-Agent "RMA" bad_bot
SetEnvIfNoCase User-Agent "Siphon" bad_bot
SetEnvIfNoCase User-Agent "SiteBot" bad_bot
SetEnvIfNoCase User-Agent "sitecheck.internetseer.com" bad_bot
SetEnvIfNoCase User-Agent "SiteSnagger" bad_bot
SetEnvIfNoCase User-Agent "SlySearch" bad_bot
SetEnvIfNoCase User-Agent "SmartDownload" bad_bot
SetEnvIfNoCase User-Agent "Snake" bad_bot
SetEnvIfNoCase User-Agent "Snapbot" bad_bot
SetEnvIfNoCase User-Agent "Snoopy" bad_bot
SetEnvIfNoCase User-Agent "sogou" bad_bot
SetEnvIfNoCase User-Agent "Soup" bad_bot
SetEnvIfNoCase User-Agent "SpaceBison" bad_bot
SetEnvIfNoCase User-Agent "SpankBot" bad_bot
SetEnvIfNoCase User-Agent "spanner" bad_bot
SetEnvIfNoCase User-Agent "spbot" bad_bot
SetEnvIfNoCase User-Agent "Sqworm" bad_bot
SetEnvIfNoCase User-Agent "Stripper" bad_bot
SetEnvIfNoCase User-Agent "Sucker" bad_bot
SetEnvIfNoCase User-Agent "suggybot" bad_bot
SetEnvIfNoCase User-Agent "SuperBot" bad_bot
SetEnvIfNoCase User-Agent "SuperHTTP" bad_bot
SetEnvIfNoCase User-Agent "Surfbot" bad_bot
SetEnvIfNoCase User-Agent "SurveyBot" bad_bot
SetEnvIfNoCase User-Agent "suzuran" bad_bot
SetEnvIfNoCase User-Agent "SWeb" bad_bot
SetEnvIfNoCase User-Agent "Szukacz/1.4" bad_bot
SetEnvIfNoCase User-Agent "Tagoobot" bad_bot
SetEnvIfNoCase User-Agent "tAkeOut" bad_bot
SetEnvIfNoCase User-Agent "Teleport" bad_bot
SetEnvIfNoCase User-Agent "Telesoft" bad_bot
SetEnvIfNoCase User-Agent "The.Intraformant" bad_bot
SetEnvIfNoCase User-Agent "TheNomad" bad_bot
SetEnvIfNoCase User-Agent "TightTwatBot" bad_bot
SetEnvIfNoCase User-Agent "Titan" bad_bot
SetEnvIfNoCase User-Agent "toCrawl/UrlDispatcher" bad_bot
SetEnvIfNoCase User-Agent "True_Robot" bad_bot
SetEnvIfNoCase User-Agent "ttCrawler" bad_bot
SetEnvIfNoCase User-Agent "turingos" bad_bot
SetEnvIfNoCase User-Agent "TurnitinBot" bad_bot
SetEnvIfNoCase User-Agent "TurnitinBot/1.5" bad_bot
SetEnvIfNoCase User-Agent "Twiceler" bad_bot
SetEnvIfNoCase User-Agent "URLy.Warning" bad_bot
SetEnvIfNoCase User-Agent "Vacuum" bad_bot
SetEnvIfNoCase User-Agent "VCI" bad_bot
SetEnvIfNoCase User-Agent "VoidEYE" bad_bot
SetEnvIfNoCase User-Agent "Voyager" bad_bot
SetEnvIfNoCase User-Agent "Web Image Collector" bad_bot
SetEnvIfNoCase User-Agent "Web Sucker" bad_bot
SetEnvIfNoCase User-Agent "Web.Image.Collector" bad_bot
SetEnvIfNoCase User-Agent "WebAuto" bad_bot
SetEnvIfNoCase User-Agent "WebBandit" bad_bot
SetEnvIfNoCase User-Agent "Webclipping.com" bad_bot
SetEnvIfNoCase User-Agent "WebCopier" bad_bot
SetEnvIfNoCase User-Agent "WebEMailExtrac.*" bad_bot
SetEnvIfNoCase User-Agent "WebEnhancer" bad_bot
SetEnvIfNoCase User-Agent "WebFetch" bad_bot
SetEnvIfNoCase User-Agent "WebGo IS" bad_bot
SetEnvIfNoCase User-Agent "WebLeacher" bad_bot
SetEnvIfNoCase User-Agent "WebmasterWorldForumBot" bad_bot
SetEnvIfNoCase User-Agent "WebReaper" bad_bot
SetEnvIfNoCase User-Agent "WebSauger" bad_bot
SetEnvIfNoCase User-Agent "Website eXtractor" bad_bot
SetEnvIfNoCase User-Agent "Website Quester" bad_bot
SetEnvIfNoCase User-Agent "WebSite" bad_bot
SetEnvIfNoCase User-Agent "Webster" bad_bot
SetEnvIfNoCase User-Agent "WebStripper" bad_bot
SetEnvIfNoCase User-Agent "WebWhacker" bad_bot
SetEnvIfNoCase User-Agent "WebZIP" bad_bot
SetEnvIfNoCase User-Agent "Wget" bad_bot
SetEnvIfNoCase User-Agent "Whacker" bad_bot
SetEnvIfNoCase User-Agent "Widow" bad_bot
SetEnvIfNoCase User-Agent "WISENutbot" bad_bot
SetEnvIfNoCase User-Agent "WordPress" bad_bot
SetEnvIfNoCase User-Agent "WWW-Collector-E" bad_bot
SetEnvIfNoCase User-Agent "WWWOFFLE" bad_bot
SetEnvIfNoCase User-Agent "Xaldon" bad_bot
SetEnvIfNoCase User-Agent "Xenu" bad_bot
SetEnvIfNoCase User-Agent "Yeti" bad_bot
SetEnvIfNoCase User-Agent "YottosBot" bad_bot
SetEnvIfNoCase User-Agent "Zeus" bad_bot
SetEnvIfNoCase User-Agent "Zyborg" bad_bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

Помимо, советую прописывать дерективу Crawl-delay: 5 в вашем файле robots.txt это задержка в секундах, желательно всем роботам ее дать что касается ваще плохих хостингов или дешевых под сателлиты совсем низкопосещаемые. Так-же юзал ранее под хостинг для sape

.htaccess, нагрузка на хостинг, хостинг