Закрываем индексацию неуникальных Картинок и что делать с Гугл соплями

8 августа 2012

Частенько не у всех есть возможность «прикупить картинки» на фото-стоках или сообразить где-бы их «нарыть» так что-бы они были уникальны. При этом, все понимают что у каждой картинки есть автор и используя без разрешения мы нарушаем авторские права.

При написании статей каждый из нас серфит в Гугл картинках, находит что-то что подходит по тематике. Нужно понимать что копируя к себе картинку мы «засоряем поисковую систему» дублирующим контентом. Это тоже что копипаст текста. Если срыть картинку от поисковиков, то % вероятности что ее найдут на вашем сайте через поиск равняется нулю.

Потому предлагаю к любой «неуникальной картинке» дописывать слово noindex. В файле robots.txt прописывать вот такую строчку:
Disallow: /*noindex*

На выходе будет что-то вроде /wp-content/uploads/2009/12/noindex_finstrip.jpg

Но если «большинство картинок» у вас неуникально, проще будет прописать тем картинкам что уникальны index_* и разрешить индексировать только их. Остальные закрыть.

Allow:  /папка_с_картинками/index_*
Disallow: /папка_с_картинками/

Все так банально и может показаться тупым, но по сути продуманный до мелочей каждый момент может в итоге дать большие бонусы.

У меня на блоге, есть очень много скриншотов всякого рода «кода», но я так подумал и ваще не могу понять зачем это индексировать. Не помню не разу чтобы я искал какие то скриншоты в Гугл картинках, разве что к одной из партнерок искал таблицы выплат =) А вы?

Вот к примеру такую фотку https://wlad2.ru/wp-content/uploads/2010/11/zarisovka.jpg я бы оставил на индексацию, а скриншот какого УГ сайта нет https://wlad2.ru/wp-content/uploads/2012/04/ScreenShot-10.04.12-16-46-08.jpg

Гугл Сопли и муторная работа по их удалению.

И так не секрет что даже если вы создали идеальный файл robots.txt то каким-то странным образом Гугл может проиндексировать «директории и страницы» которые были напрочь запрещены, почему? Файл роботса не запрещает индексацию, он просто не пускает туда робота. Но как я заметил, бывает такое, что на сайте ведутся какие-то работы или происходит обновление движка или еще чего и в этот момент на сайте шерстит «бот Гугла» и тут он начинает хавать все подряд и конечно хавает то, что закрыто в роботсе и потом выплевывать это не хочет. Как его заставить слушаться, долгое время попросту не знал . Но, случайно встретил блог в «который ваще не по теме» но упоменулось что вручную в Гугл вебмастере это делается. Я не особо любитель всех этих панелей поисковиков но быстро разобрался и почистил ненужные страницы.

Грех будет не сказать, что идеальным способом закрывать страницы является «мета тег noindex», но к сожалению не все движки имеют такую возможность или дополнения. Но при возможности пользуюсь всегда.

Какие страницы считаются Соплями приведу пример в скринах:

К примеру возьмем охуевший такой сайт diettu.ru в Гугле через оператор site:diettu.ru получаем результат 9 790 страниц, на самом деле на нем не боль 1к страниц ну пусть там категорий 20 навскидку, меток пару сотен... остальное все это СОПЛИ!

В настройках Гугла выберите выводить по 100 страниц и смотрим на 4 страницу выдачи:

В общем кликаем на линк "повторить поиск, включив опущенные результаты"  и там видим вот такие ссылки:

К сожалению все сопли так сложно насерфить, вам потребуется вебмастер Гугла и Яндеккса + парсить сам сайт и задавать различные параметры отыскивая их. Далее такие урлы удаляем через  панель вебмастера Гугла. Зачем? Если у вас всякие ГС, то конечно пост не для вас, но когда ваши ресурсы это уже бизнес, то каждая мелочь влияет на весь механизм.

основной индекс