Szerző:
Bánóczy Zoltán

Zanza:


Discovering Googlebot
Bánóczy Zoltán - 2006.12.27. 11:54





2005-ben próbáltam először komolyabban elkülönülíteni, megkülönböztetni a Google adatgyűjtő rendszerének szereplőit, szervereit. A fenti ábrán egy induló, nem túl nagy leindexelt oldalszámú projekt spiderezésének szemléltetése látható, 2005 január végétől június végéig, azaz mintegy fél évet, az első fél évét felölelve.


A freshbot-nak és deepbot-nak keresztelt robotok már régóta ismertek, ezeket jelölik a kék vonalak. Az ún. deepbot a mély-spirderezésért, a freshbot a felszínes, de gyors adatgyűjtésért felel (fontos oldalakról).


2003 óta a Google egyik nagy fejlesztése illetve újítása az utóbbi, hiszen frissebben tartja az indexet, mint a 2001 környékén még létező, a spiderezéshez képest 3 hetes csúszással megjelenő új adatok. 2004 közepétől a freshbot kifinomultabb és jóval aktívabb (nagyobb kapacitású) lett.


A freshbot-témához még annyi kívánkozik ide, hogy minél gyakoribb látogató, annál jobban szeret minket a Google, azaz egy jó mérőfoka a Google-barátságnak. Ahogy a fenti ábra mutatja, a projektnél a freshbot egy szép időszeletre elpártolt az oldaltól, visszacsalogatni külön mutatvány volt. A freshbot egyfajta discovering-bot szerepét is betölti, azaz a deepcrawlernek szolgáltatja a spiderezendő, új URL-eket.


Számomra a legérdekesebbek az általam xbot_low és xbot_high névre keresztelt robotok, melyeket aktivitásuk alapján, illetve céljuk ismeretének hiányában láttam el ezekkel a hüle munkacímekkel anno. E névtelen robotok nekem ott és akkor egyfajta ellenőrző, illetve minősítő-robotoknak tűntek.


Az adott projekt részleteinek, változás-naplójának, fejlesztési-üzemeltetési bakijainak feltárása nélkül az ábráról sokat elmondani nem tudok, így a grafikonokat és ábrákat szeretőknek ajánlom nézegetésre, elgondolkodásra.

 

A robotokat nem csupán IP alapján különböztettem meg, természetesen. Elsősorban karakterisztikai jellegzetességüket vettem figyelembe: jövetel módja-ideje-jellege, spiderezett oldalak jellege (régi-új), stb. Az elkülönülítéshez néha segítségül hívtam a http-useragenteket, de a legritkábban IP-tartományokat.


A bejegyzés trackback címe:

http://seo.blog.hu/api/trackback/id/tr824522

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.