Дубли в движке WordPress 💎
Существуют хэш ссылки, их плотно используют форумы. Если рать во внимание данный блог, есть публикации в которых размечается публикация на части и для удобства расставляются якоря:
- /name_post
- /name_post#one
- /name_post#two
Пример на «форуме по wordpress» юзер думал что тег #more в движке, плодит дубли, что из-за этого его сайты попадают в фильтр АГС Яндекса, так вот ему, так и не дали нормальный ответ.
Данный пост легче пойдет вам при условии, что вы читали мою публикацию о [Дубли страниц сайтов].
В движке WP дубли плодят такие страницы:
- Архивы http://wlad2.ru/2010/
- Страницы авторов блога http://wlad2.ru/author/wlad2/
- Страницы с ответами к комментарию https://wlad2.ru/promotion-of-the-portal?replytocom=5961
- и такой вид страниц /kefirnye-diety.html/comment-page-66#comment-235724
В сочетании уже отписанных дублей с Категориями/Разделами/Метками получается помойная яма, на которую поисковые системы реагируют негативно.
Как закрыть от индексации дубли страниц:
Наилучшим способом будет, убить все кривые ссылки с шаблона сайта (самого сайта), чтобы к ним небыло доступа.
Если блог ведет один человек, то не к чему ссылка на страницу автора на всех страницах /author/seogrot/ такую страницу отдельно можно создать в админке блога [>Страницы>Добавить новую]и разместить ссылку о себе в нужном месте.
Но если ваш шаблон или знания html верстки не позволяют этого, есть способ, который справиться с закрытием дублей, для этого нужно воспользоваться правилами robots.txt про который уже достаточно отписался и сам Google и Яндекс в свой хэлпах.
Приведу пару рабочих примеров:
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-
Disallow: /?
Disallow: *?
Disallow: *feed
Disallow: *trackback
Disallow: *comments
Именно этот вариант используется в моем блоге в robots.txt потому что подходит по структуре ЧПУ URL.
Те кто не верят в надобности могут сделать запросы в гугле:
- inurl:.html/feed «wordpress»
- inurl:?replytocom= «wordpress»
- inurl:?s= «wordpress» поиск
И последний вариант для тех кто пренебрегает использование ЧПУ URL и имеет структуру типа /?p=**:
User-agent: *
Disallow: /?m
Disallow: /?s
Disallow: /wp-
Disallow: *replytocom
Disallow: *page
На вопрос почему не стал закрывать метки и категории отвечу, дело в уровне вложенности внутренних страниц и если на вашем блоге или сайте будет более десятка страниц, то детальнее вы можете прочитать пост в котором изложил все моменты.
Подписаться на Telegram