Дубли в движке WordPress

11 декабря 2010

Существуют хэш ссылки, их плотно юзают форумы. Если рать во внимание данный блог, есть публикации в которых размечается публикация на части и для удобства раставляются якоря:

  • /name_post
  • /name_post#one
  • /name_post#two

Пример на «форуме по wordpress» юзер думал что тег #more в движке, плодит дубли, что из-за этого его сайты попадают в фильтр АГС Яндекса, так вот ему, так и не дали нормальный ответ.

8s4d

Данный пост легче пойдет вам при условии что вы читали мою публикацию о [Дубли страниц сайтов].

В движке WP дубли плодят такие страницы:

  • Архивы http://wlad2.ru/2010/
  • Страницы авторов блога http://wlad2.ru/author/wlad2/
  • Страницы с ответами к комментарию https://wlad2.ru/promotion-of-the-portal?replytocom=5961
  • и такой вид страниц /kefirnye-diety.html/comment-page-66#comment-235724

В сочетании уже отписанных дублей с Категориями/Разделами/Метками получается помойная яма, на которую поисковые системы реагируют негативно.

Как закрыть от индексации дубли страниц:

Наилучшим способом будет, убить все кривые ссылки с шаблона сайта (самого сайта), что-бы к ним не-было доступа.

phzp

Если блог ведет один человек, то не к чему ссылка на страницу автора на всех страницах /author/seogrot/ такую страницу отдельно можно создать в админке блога [>Страницы>Добавить новую]и разместить ссылку о себе в нужном месте.

Но если ваш шаблон или знания html верстки не позволяют этого, есть способ который справиться с закрытием дублей, для этого нужно воспользоваться правилами robots.txt про который уже достаточно отписался и сам Google и Яндекс в свой хэлпах.

Приведу пару рабочих примеров:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-
Disallow: /?
Disallow: *?
Disallow: *feed
Disallow: *trackback
Disallow: *comments

Именно этот вариант используется в моем блоге в robots.txt потому что подходит по структуре ЧПУ URL.

Те кто не верят в надобности могут сделать запросы в гугле:

  • inurl:.html/feed «wordpress»
  • inurl:?replytocom= «wordpress»
  • inurl:?s= «wordpress» поиск

И последний вариант для тех кто пренебрегает использование ЧПУ урлов и имеет структуру типа /?p=**:

User-agent: *
Disallow: /?m
Disallow: /?s
Disallow: /wp-
Disallow: *replytocom
Disallow: *page

На вопрос почему не стал закрывать метки и категории отвечу, дело в уровне вложенности внутренних страниц и если на вашем блоге или сайте будет более десятка страниц, то детальнее вы можете прочитать пост в котором изложил все моменты.

cms wordpress, robots.txt, внутренняя оптимизация