парсер проиндексированных страниц в яндексе сайта

марта 20, 2009Тэги: | |

недавно я уже писал про то как парсить бэклинки по yahoo

так теперь пришла мысль, скорее ее можна назвать потребностью, проверять свои сайты на кол-во страниц в индексе, а самое важное какие именно страници..

всем уже извесно что перейдя по ссылке  http://yandex.ru/yandsearch?surl=rap.ru&pag=u&numdoc=50&rd=0 то с лехкостью можно узнать сколько страниц в индексе сайта rap.ru, но отсортировать все ссылки, в кучу врятли удастся

чтобы собрать все напарсенные ссылки в кучу мы скачаем парсер AGGRESS Parser нароем у себя папочку C:\Program Files\AGGRESS\Parser\search

потом сделаем такой файлик с настройками на парс Яндекса

например файл назвем YandexUrl.txt

Url-http://www.yandex.ru
AbsoluteUrl-http://www.yandex.ru/yandsearch?surl={REQUEST}&pag=u&numdoc=50&rd=0&lr=187
UntilTextAfter-href=»{TEXT}»
UntilNextLinkAfter-<a id=»next_page» href=»{NEXTLINK}»>
Pattern-{TEXT}{BLACKWORD(yandex|yandsearch|yandpage|google|msn|yahoo|rambler|aport|meta|wow.ya.ru|onclick|advanced|amp;|numdoc|all_services|favicon.ico|opensearch|/setup/|/info/)}

если что непонятно то валим в эту тему, там подробнее расписано..

Комментариев: 5


  1. Парсер ничего не выводит. С того времени формат выдачи не поменялся?


  2. Нашел причину – кривые кавычки вордпресса. Терь все работает


  3. AGGRESS Parser крутая махина, парсит все что угодно, использую его как парсер сайта, и тп.


  4. почему то после запуска идет время, ни чего не находит, пишет 0 урл в минуту


  5. А так чтоб проверить десяток урлов с разных сайтов на проиндексированость в разных ПС???

Сказать!