парсер проиндексированных страниц в яндексе сайта
марта 20, 2009недавно я уже писал про то как парсить бэклинки по yahoo
так теперь пришла мысль, скорее ее можна назвать потребностью, проверять свои сайты на кол-во страниц в индексе, а самое важное какие именно страници..
всем уже извесно что перейдя по ссылке http://yandex.ru/yandsearch?surl=rap.ru&pag=u&numdoc=50&rd=0 то с лехкостью можно узнать сколько страниц в индексе сайта rap.ru, но отсортировать все ссылки, в кучу врятли удастся
чтобы собрать все напарсенные ссылки в кучу мы скачаем парсер AGGRESS Parser нароем у себя папочку C:\Program Files\AGGRESS\Parser\search
потом сделаем такой файлик с настройками на парс Яндекса
например файл назвем YandexUrl.txt
Url-http://www.yandex.ru
AbsoluteUrl-http://www.yandex.ru/yandsearch?surl={REQUEST}&pag=u&numdoc=50&rd=0&lr=187
UntilTextAfter-href=»{TEXT}»
UntilNextLinkAfter-<a id=»next_page» href=»{NEXTLINK}»>
Pattern-{TEXT}{BLACKWORD(yandex|yandsearch|yandpage|google|msn|yahoo|rambler|aport|meta|wow.ya.ru|onclick|advanced|amp;|numdoc|all_services|favicon.ico|opensearch|/setup/|/info/)}
если что непонятно то валим в эту тему, там подробнее расписано..
Парсер ничего не выводит. С того времени формат выдачи не поменялся?
Нашел причину – кривые кавычки вордпресса. Терь все работает
AGGRESS Parser крутая махина, парсит все что угодно, использую его как парсер сайта, и тп.
почему то после запуска идет время, ни чего не находит, пишет 0 урл в минуту
А так чтоб проверить десяток урлов с разных сайтов на проиндексированость в разных ПС???