Zajímavé statistiky projektu W8

Společně s 404m.com je mimo provoz i Cybersquatting.cz. Což těžce nese zvláště @DoménovýRobot, který nemůže postovat své úžasné tipy na volné domény. Ovšem Cybersquatting.cz je místem více robotů. Jedním z nich je i projekt W8. Jedná se o roboty, kteří mapují české domény a ukládají externí odkazy na nich. Dalo by se říct, že vlastně monitorují zpětné odkazy napříč doménami.

Monitorování neprobíhá na serveru ale u mě doma. Když W8:crawler nasbírá dostatečné množství informací přijde čas na jejich přepočet. To je hodně zdlouhavá činnost, která by určitě šla vyřešit tím, že si nastuduju detailněji SQL. No to je teď jedno. Přepočet byl hotoví koncem minulého měsíce, ale čekal jsem na přesun serverů Angel Hostingu, než to nahraju. Což je zatím v rukou techniků.

Zatím si ale můžeme prohlédnout nějaké statistiky. Celkový počet procrawlovaných domén 258 506.

TOP 10 domén podle počtu zpětných odkazů
toplist.cz 41583
facebook.com 28514
twitter.com 11912
google.com 10014
youtube.com 5466
seznam.cz 4782
w3.org 4753
navrcholu.cz 4477
pixolo.cz 4023
linkuj.cz 3889

Jak je vidět vyhrává u nás Top List, na který odkazuje 16% všech domén, které W8:crawler prošel. Spousta lidé jej stále používá. Jestli někde je centrální dálnice českého link juice, tak je to toplist.cz

Souboj Facebook vs Twitter vyšel v ČR celkem zajímavě. 28514:11912 resp. 2,39:1. Osobně jsem považoval Twitter v ČR spíše za výjimku.

Seznam a Google by jsem nerad hodnotil. W8 nerozlišuje mezi doménou a subdoménou. Odkazy na subdoménu se počítají k doméně, takže Google plus apod. dávají body Google, zatímco Seznam na subdoméně moc služeb nepěstuje.

Lidé se rádi pochlubí validním kódem odkazem na W3.org.

Na 11 místě s 3889 odkazy skončil wordpress.org. I přes poměrně malý vzorek by se dalo soudit, že na WordPressu jede poměrně velký počet webů. Když nad tím tak přemýšlím dalo by se zjistit kolik webů jede na různých systémech, pokud si tedy odkaz neodstranili majitelé z patičky.

Mimochodem průměrné množství externích odkazů na stránce je 4,89.


Jak bude reklama vypadat?
-
Nechceš zde reklamu napořád jen za 60 Kč?
Zobrazit formulář pro nákup

5 komentářů

  1. kolik je to jednotlivych url? a jak bere tvuj bot url typu domena.cz/kategorie/stranka/?order=asc versus ?order=desc? dik

    1. sysel: přidává body jen doménám. Počítají se jen odkazy z hlavní stránky.
      tom11111: no je pravda, že když už prochází všechny ty domény mohl by rovnou sesbírat i nějaká data.

  2. Ten WordPress by asi bylo lepší identifikovat i podle meta tagu
    Existuje celekm dost případů, kdy ze šablony odstraní odkaz, ale na tohle zapomenou nebo jim to nevadí.

  3. jen pro pochlubeni: cvicne jsem spichl v php maleho bota na crawlovani ceskeho netu a od doby meho minuleho prispevku mam cca 10 stran z kazde domeny, s tim, ze aktualne mam nacrawlovanych 500k ceskych domen. predbehl jsem te 🙂

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.