Пингореакция

9 11 2008

Недавно задался целью написать движок (лёгкий) типа вордпресса, только намного легче. И чтоб он отдавал страничку намного быстрее, т.е. изначально сильнозакешированный :) Задача выполнена, и вот, я на тестовой конфигурации его запускаю и начинаю прикручивать разные шняжки.

Первой шняжкой естественно стала пинговалка :) Жутко прикольная штука, бот приходит практически мгновенно. Счас расскажу в какой последовательности они читают меня :) :

  1. gooblog/2.0 (http://help.goo.ne.jp/contact/)
  2. 210.165.9.64
  3. YahooFeedSeeker/2.0 (compatible; Mozilla 4.0; MSIE 5.5; http://publisher.yahoo.com/rssguide)
  4. Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  5. BlogPeople Java/1.4.2_04
  6. Moreoverbot/5.00 (+http://www.moreover.com)
  7. BlogPulseLive (support@blogpulse.com)
  8. Java/1.6.0_02
  9. PEAR HTTP_Request class ( http://pear.php.net/ )

Очевидно что [2], это тот - же певый, только другой скрипт. Хостится он вот тут http://www.goo.ne.jp/. Ищет файл index.rdf в той - же папке.

Бот [4] (Гугльбот) почему - то делает 2 идентичных запроса, почему 2 - х.з. :) А потом он начинает лазить по ссылкам с данной страниц (зачётно ;) ). Кстати лазить по страничкам он не прекращает после вынимания прямых связей. Начинает медленно кушать всё остальное дальше. Надеюсь что проиндексит ресурс хорошенько :) Кстати его есть несколько разновидностей:

  • Googlebot, собственно оригинальный гугльбот
  • Googlebot-Image, тырит картинки
  • MediaPartners-Google, смотрит страницу для показа релевантных Adsense объявлений
  • Googlebot-Mobile, краулит для мобильного поиска
  • AdsBot-Google, краулит для определения качества страниц для Adwords

Юмор из панели Гугла для вёбмастеров:

В настоящее время скорость сканирования не является фактором, влияющим на сканирование вашего сайта.

во как :)

Бот [5] так - же делает 2 идентичных запроса. Видимо 1й запрос - быстробот, который не анализирует ссылки, а быстренько ваяет контент со страницы, а второй, уже нормальный, начинаит краулить сайт.

Бот [7] перед тем как схавнуть страничку делает запрос в поисках robots.txt, типа делает вид что культурный (кстати единственный из всех, остальные значит чхать хотели на этот роботс).

Кстати изучая ботов можно найти неплохое кол - во страничек для реф спама, кто в теме - тот поймёт :)

Далее перечислю ещё ботов, которые тоже ходят, только почему - то не тот урл:

  1. R6_FeedFetcher(www.radian6.com/crawler)
  2. Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)
  3. Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Яху как всегда отличился, тормозит блин не по детски :) И ходит не на те урлы. Ладно, хотя - бы так.

Пока писал пост - гугльбот не переставал лазить по сайту. Медленно так, страничку за страничкой. Трафика пока 0, посмотрим что будет дальше.

Google Bookmarks Digg Reddit del.icio.us Technorati News2.ru БобрДобр.ru RUmarkz Ваау! Memori.ru

Informations

3 responses to “Пингореакция”

10 11 2008
nekto (12:03:03) :

пишешь для себя, или планируешь выкладывать его для пользования другими платно/бесплатно?
вообще, для сплогов было бы неплохо чтонибудь подобное иметь, а то не уверен, что хорошая идея на серваке иметь >1000 доменов с установленным вордпрессом, как у меня ща:)

23 11 2008
admin (23:24:12) :

Пишу для себя, но если кому надо - дам бесплатно. Счас решаю какой функционал нужен. Если есть мысли - пишите (счас есть отображение статьи, отображение статьи по тегам, отображение архива статей, постраничность, теги).

2 12 2008
лаборатория Гаджетов (18:41:55) :

неплохая работа, а про поделится это ты серьезно?!:) буду рад увидеть ответ)))

[сателит gadgetarea.wordpress.com] ответ в предыдущем коменте. Надо - бери.

Уважаемые комментаторы!

Если вы пишете в комментарии к посту или странички и в нём указываете адрес своего сайта, этот сайт должен быть вашим блогом, или личным сайтам. Все комментарии с ссылками на непонятные саттелиты будут редактироваться. Не утруждайте себя и не тратьте своё и моё время. Ссылки на ваши проекты должны быть в тексте и должны быть по теме предложения в комментарии (по теме или нет - определяю Я).
Комменты не по теме, либо по теме "блин, кипяток - то горячий!" приравниваю к спаму.

*
To prove that you're not a bot, enter this code
Anti-Spam Image

You can use these tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>



Блогун - монетизируем блоги