Пингореакция
9 11 2008Недавно задался целью написать движок (лёгкий) типа вордпресса, только намного легче. И чтоб он отдавал страничку намного быстрее, т.е. изначально сильнозакешированный
Задача выполнена, и вот, я на тестовой конфигурации его запускаю и начинаю прикручивать разные шняжки.
Первой шняжкой естественно стала пинговалка
Жутко прикольная штука, бот приходит практически мгновенно. Счас расскажу в какой последовательности они читают меня
:
- gooblog/2.0 (http://help.goo.ne.jp/contact/)
- 210.165.9.64
- YahooFeedSeeker/2.0 (compatible; Mozilla 4.0; MSIE 5.5; http://publisher.yahoo.com/rssguide)
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- BlogPeople Java/1.4.2_04
- Moreoverbot/5.00 (+http://www.moreover.com)
- BlogPulseLive (support@blogpulse.com)
- Java/1.6.0_02
- PEAR HTTP_Request class ( http://pear.php.net/ )
Очевидно что [2], это тот - же певый, только другой скрипт. Хостится он вот тут http://www.goo.ne.jp/. Ищет файл index.rdf в той - же папке.
Бот [4] (Гугльбот) почему - то делает 2 идентичных запроса, почему 2 - х.з.
А потом он начинает лазить по ссылкам с данной страниц (зачётно
). Кстати лазить по страничкам он не прекращает после вынимания прямых связей. Начинает медленно кушать всё остальное дальше. Надеюсь что проиндексит ресурс хорошенько
Кстати его есть несколько разновидностей:
- Googlebot, собственно оригинальный гугльбот
- Googlebot-Image, тырит картинки
- MediaPartners-Google, смотрит страницу для показа релевантных Adsense объявлений
- Googlebot-Mobile, краулит для мобильного поиска
- AdsBot-Google, краулит для определения качества страниц для Adwords
Юмор из панели Гугла для вёбмастеров:
В настоящее время скорость сканирования не является фактором, влияющим на сканирование вашего сайта.
во как
Бот [5] так - же делает 2 идентичных запроса. Видимо 1й запрос - быстробот, который не анализирует ссылки, а быстренько ваяет контент со страницы, а второй, уже нормальный, начинаит краулить сайт.
Бот [7] перед тем как схавнуть страничку делает запрос в поисках robots.txt, типа делает вид что культурный (кстати единственный из всех, остальные значит чхать хотели на этот роботс).
Кстати изучая ботов можно найти неплохое кол - во страничек для реф спама, кто в теме - тот поймёт
Далее перечислю ещё ботов, которые тоже ходят, только почему - то не тот урл:
- R6_FeedFetcher(www.radian6.com/crawler)
- Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)
- Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Яху как всегда отличился, тормозит блин не по детски
И ходит не на те урлы. Ладно, хотя - бы так.
Пока писал пост - гугльбот не переставал лазить по сайту. Медленно так, страничку за страничкой. Трафика пока 0, посмотрим что будет дальше.

пишешь для себя, или планируешь выкладывать его для пользования другими платно/бесплатно?
вообще, для сплогов было бы неплохо чтонибудь подобное иметь, а то не уверен, что хорошая идея на серваке иметь >1000 доменов с установленным вордпрессом, как у меня ща:)
Пишу для себя, но если кому надо - дам бесплатно. Счас решаю какой функционал нужен. Если есть мысли - пишите (счас есть отображение статьи, отображение статьи по тегам, отображение архива статей, постраничность, теги).
неплохая работа, а про поделится это ты серьезно?!:) буду рад увидеть ответ)))
[сателит gadgetarea.wordpress.com] ответ в предыдущем коменте. Надо - бери.