Сам я когда еще был зеленым и не имел понятия много в чем, думал что хэш ссылки — это дубли, я сильно ошибался и вот пример такой ссылки http://wlad2.ru/valdemarin/#next2
Ссылки на пост, одинаковы.
http://wlad2.ru/valdemarin/
http://wlad2.ru/valdemarin/#next2
На абсолютно всех форумах используются хэш ссылки для удобной навигации.
Вот например на форуме по wordpress mywordpress.ru/support/viewtopic.php?pid=78158 юзер думал что тег more в движке плодит дубли и типа из-за этого его сайты попадают в АГС Яндекса, так вот ему так и не дали нормальный ответ.
Если вам действительно интересен данный пост про дубли, то прочитайте вступление [Дубли страниц сайтов] что-бы понимать хоть немножко о чем здесь будет дальше.
В движке wordpress дубли плодят такие страницы:
Архивы http://wlad2.ru/2010/
Страницы авторов блога http://wlad2.ru/author/wlad2/
Страницы с ответами к комментарию http://wlad2.ru/promotion-of-the-portal/?replytocom=5961
Ну и в сочетании уже отписанных дублей с Категориями/Разделами/Метками получается помойная яма, на которую поисковые системы реагируют негативно.
Наилучшим способом будет убрать все ссылки с шаблона сайта, что-бы к ним не-было доступа.
Если сайт ведет один человек, то не к чему ссылка на страницу автора http://wlad2.ru/author/wlad2/ такую страницу отдельно можно создать в админке блога [>Страницы>Добавить новую] и разместить ссылку о себе в нужном месте шаблона. Но если ваш шаблон или знания html верстки не позволяют этого, есть способ который справиться с закрытием дублей, для этого нужно воспользоваться правилами robots.txt
про который уже достаточно отписался Google и Яндекс
Я лишь хочу привести пару рабочих примеров для wordpress
User-agent: *
Disallow: /?
Disallow: */?
Disallow: /wp-
Disallow: */feed
Disallow: */trackback
Disallow: */comments
User-agent: YandexImages*
Allow: /wp-content/uploads/
User-agent: Googlebot-Image*
Allow: /wp-content/uploads/
Именно этот вариант используется в моем блоге http://wlad2.ru/robots.txt потому что подходит по структуре ЧПУ ссылок.
Теперь вариант для тех у кого структура ссылок как у блога Маула
User-agent: *
Disallow: /?
Disallow: /*?
Disallow: /wp-
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Те кто не верят в надобности могут сделать запросы в гугле:
inurl:.html/feed «wordpress»
inurl:?replytocom= «wordpress»
inurl:?s= «wordpress» поиск
И последний вариант для тех кто пренебрегает использование ЧПУ урлов:
User-agent: *
Disallow: /?m
Disallow: /?s
Disallow: /wp-
Disallow: /*&replytocom=
Disallow: /*&paged=
Disallow: /*&cpage=1
На вопрос почему я не стал закрывать метки и категории отвечу, дело в уровне вложенности внутренних страниц и если на вашем блоге или сайте будет более десятка страниц, то детальнее вы можете прочитать пост в котором я изложил все моменты.
не закрываю вообще от индексации. Свято верю что это вредит сайту! Шучу конечно :) Но правда не не закрываю. Метками(тегами) стараюсь пореже пользоваваться или использовать их так чтобы еще и на страницы тегов шел трафик, т.е. очень долго думаю какой ключевик подобрать...
А чтобы и рубрики не пестрили дублями, стараюсь чередовать посты в разные рубрики а не в одну (сайт в подписи я еще до ума не доводила, потому дубли 100%есть)))
вот все твои дубли www.google.com/search?q=s...e:saitsamoi.ru/*
Что означает следующая строка?
Disallow: /wp-
все что начинается на /wp-
это и /wp-login.php и /wp-admin/ и /wp-includes/ и все остальные ненужные пути будут закрыты от индексации.
неправильно ты написал, у тебя у самого гуглом проиндексировано 2460 страниц, а в поиске участвуют всего 12%, остальное все сопли...
дружок, что неправильно то, создавать робост?
на данный момент открыл метки к индексации и работаю над тем что-бы большинство из них вышли из соплей.. но это очень огромная работа..