Закрываем индексацию неуникальных Картинок и что делать с Гугл соплями 💎
Этот пост в видео формате, скринкасте или в тексте ниже ↓:
Частенько не у всех есть возможность «прикупить картинки» на фото-стоках или сообразить где-то их «нарыть» так, чтобы они были уникальны. При этом, все понимают что у каждой картинки есть автор и используя без разрешения мы нарушаем авторские права.
При написании статей каждый из нас серфит в Google картинках, находит что-то что подходит по тематике. Нужно понимать что копируя к себе картинку мы «засоряем поисковую систему» таким дублирующим контентом. Это тоже что копи паст текста. Если срыть картинку от поисковиков, то % вероятности что ее найдут на вашем сайте через поиск равняется нулю.
Потому предлагаю к любой «неуникальной картинке» дописывать слово noindex. В файле robots.txt с помощью любого редактора прописывать вот такую строчку / директиву:
Disallow: /*noindex*
На выходе будет что-то вроде /wp-content/uploads/2009/12/noindex_finstrip.gif
/wp-content/uploads/2009/12/noindex_lol.jpg
Но если «большинство картинок» у вас неуникально, проще будет прописать тем картинкам, что уникальны index_* и разрешить индексировать только их. Остальные закрыть.
Disallow: /папка_с_картинками/
Allow: /папка_с_картинками/index_*
Все так банально и может показаться тупым, но по сути продуманный до мелочей каждый момент может в итоге дать большие бонусы.
У меня на блоге, есть очень много скриншотов всякого рода «кода», но я так подумал и ваще не могу понять зачем это индексировать. Не помню, ни разу, чтобы я искал какие-то скриншоты в Гугл картинках, разве что к одной из партнерок искал таблицы выплат =) А вы?
Вот к примеру такую фотку https://wlad2.ru/wp-content/uploads/2010/11/zarisovka.jpg я бы оставил на индексацию, а скриншот какого УГ сайта нет https://wlad2.ru/wp-content/uploads/2012/04/ScreenShot-10.04.12-16-46-08.jpg
Тем более, хорошая идея оптимизации, снизить трафик / нагрузку на сайт от поисковых роботов на ваш сайт, закрыв для индекса маленькие версии фотографий и превьюшек на страницах категорий.
Гугл Сопли и муторная работа по их удалению.
И так не секрет, что даже если вы создали идеальный файл robots.txt то каким-то странным образом Гугл может проиндексировать «директории и страницы» которые были напрочь запрещены, почему? Файл robots.txt не запрещает индексацию, он просто не пускает туда робота. Но как я заметил, бывает такое, что на сайте ведутся какие-то работы или происходит обновление движка или еще чего и в этот момент на сайте шерстит «бот Гугла» и тут он начинает кушать все подряд и конечно индексирует то, что закрыто в robots.txt и потом выплевывать это не хочет. Как его заставить слушаться, долгое время попросту не знал. Но, случайно встретил блог в «который вообще не по теме» но упоминалось что вручную в Гугл вебмастере это делается. Я не особо любитель всех этих панелей поисковиков, но быстро разобрался и почистил ненужные страницы.
Грех будет не сказать, что идеальным способом закрывать страницы является «мета тег noindex», но к сожалению не все движки имеют такую возможность или дополнения. Но при возможности пользуюсь всегда.
Какие страницы считаются Соплями приведу пример в скринах:
К примеру возьмем такой сайт diettu.ru в Гугле через оператор site:diettu.ru получаем результат 9 790 страниц, на самом деле на нем не боль 1к страниц ну пусть там категорий 20 навскидку, меток пару сотен... Остальное все это СОПЛИ!
В настройках Гугла выберите выводить по 100 страниц и смотрим на 4 страницу выдачи:
В общем кликаем на линк "повторить поиск, включив опущенные результаты" и там видим вот такие ссылки:
К сожалению все сопли так сложно насерфить, вам потребуется вебмастер Гугла / Яндекса + парсить сам проект и задавать различные параметры отыскивая их. Далее такие URL удаляем через панель вебмастера Гугла. Зачем? Если у вас всякие ГС, то конечно пост не для вас, но когда ваши ресурсы это уже бизнес, то каждая мелочь влияет на весь механизм.
Подписаться на Telegram