Jak na bezproblémovou indexaci seznam 1

Po posledních dvou článcích jsem dostal dotazy ohledně indexace seznamem. Někdo má s tímto zdrojem BFU stále problém a přitom seznam za posledních pár měsíců prošel sadou změn, které urychlili nejen indexaci, ale i aktualizaci obsahu. V první části si projdeme staré známé metody a rozebereme si jejich použití v praxi.

Jak novou stránku na seznam upozornit?
Jestliže jste právě dokončili novou stránku a začínáte s linkbuildingem, měli by jste začít na adreses http://search.seznam.cz/pridej-stranku. Právě na této stránce se totiž řadí do fronty stránky, které projde seznam bot.

Seznambot
Seznambot je crawler seznamu, který projde stránku a podstránky webu. Chová se přitom vcelku slušně, takže žádné GB dat nenacrawluje. Nemusíte se bát. Zajímá jej pouze html, css, javascript a samozřejmě text. Css a javascript, ale zřejmě stahuje jen při ověřování jestli nepodvádíte. Takže z dlouhodobého hlediska hledá jen
html a text. Někdo mi říkal, že i vlastnosti dokumentů a multimédií, ale upřimně nevím kolik je na tom pravdy.

Seznambot se identifikuje jako jeden z následujících:

SeznamBot/2.0 (+http://fulltext.seznam.cz/)
SeznamBot/2.0 (+http://fulltext.sblog.cz/robot/) 

a většinou přichází z těchto IP adres

77.75.73.123
77.75.77.123
77.75.72.115
77.75.73.50
77.75.73.123
77.75.76.115
77.75.77.123
77.78.116.30

Seznambot by měl mít pokud možno k dokumentům co možná nejlepší přístup. Pokud se zadrhne při načítání kvůli některým částem stránky, které se stahují odjinud není to zrovna nejlepší vizitka. Také je lepší nasubmitovat kompletní stránky. Pokud na projektu stále pracujete a ten obsahuje odkazy na 404ku tak s registračním formulářem počkejte. Dávejte si i pozor na soubor .htaccess. Nenalezené stránky totiž nemusí končit na 404ce, ale místo toho na indexu, což se v podstatě rovná duplicitnímu odkazu.

Seznambot by měl vidět, přesně to co vidí uživatel a to za všech okolností. Sice jsem se s tím už dlouho nesetkal, ale některé CMS občas předhazují robotům trochu jiné stránky (pouští je i do šedé zóny tj. místa kam se uživatele dostanou až po registraci). Google s tím nemá problém, ale kdysi takhle mělo jedno fórum jedoucí na PHPbb 2.x celkem slušný problém. Nově už seznambot chápe PHPbb vstup jen pro roboty, ale i tak si dávejte pozor u CMS dělaných nebo upravovaných na míru.

Pomocí souboru robots.txt se dá částečně naprogramovat chování seznambota

User-agent: SeznamBot // určeno pro seznambota
Request-rate: 10/1m 0600-1459 // 10/1m znamená že za 1 minutu může stáhnout maximálně 10 stránek a tato podmínka platí od 8:00-16:59 středoevropského letní času (UTC formát)
Request-rate: 30/1m 1500-0559   // od 17té hodiny až do 8mé ráno má povoleno stáhnout 30 stránek za minutu
Allow: /blog/   // je povoleno indexovat všechno v adresáři blog
Disallow: /admin/ // je zakázáno indexovat vše v adresáři admin

Tohle jsou jen základní pokyny (nejvíce používané). Seznambot totiž zvládá rozšířené standardy pro roboty, které jsou kompletně definovány zde.

Ještě pár věcí ohledně seznamu
– seznambot navštíví definovanou stránku na základě toho, jestli už na ní někdy byl (resubmit stránky se používá při aktualizaci obsahu po velmi dlouhé době, anebo změně designu) a také podle toho jak je dlouhá fronta. Nejpozději by to ale mělo být do 7 dnů (to je rekord, zvládne to rychleji)
– seznambot by při první návštěvě měl ignorovat nofollow odkazy v rámci webu, později si je ale stejně projde
– seznambot má problém s přesměrováním pomocí javascriptu
– pokud máte složitější strukturu webů a robot by se na ní mohl ztrácet (anebo by mohlo dojít k duplicitě) tak použijte sitemap.xml na kterou odkážete ze souboru robots.txt. Je to totiž jediný způsob jak zaručit, že robot projde opravdu všechny stránky.
– je velice důležité, aby jste měli férového webhostingového providera, který v případě výpadku nenahradí stránku svou homepage anebo reklamou. Férové jednání znamená, že místo nefunkční stránky vrátí jednu z chyb (ideální 503 – server je dočasně nedostupný, popřípadě 302 – dočasně přemístěno, v horším případě 404 – stránka nenalezena). Ostatní chyby mohou napáchat celkem slušnou paseku. Proto je dobré hledat webhosting, který po chybě nepřesměrovává na svou homepage anebo nehodí reklamu. Seznambot se v případě nedostupnosti pokusí zanedlouho na stránku vrátit. V případě, že najde stránku providera webhostingu se může vrátit až za delší dobu (přijdete o čas).

A co bude dál?
Jakmile informace o vaší stránce budou nahromaděné pomocí seznambota přijde na řadu algoritmus seznamu. Co se teď s ní bude dít je celkem těžké vědět. Spíše se dá odhadovat. V každém případě bude analyzována. Jakmile tato analýza skončí bude stránce přiřazen prvotní srank. U mě to prakticky vždy bylo 10. Jakmile se tohle stane už by se měla začít objevovat ve vyhledávání po zadání site:domena.tld. Následně potrvá zhruba ještě týden než se začne objevovat na jednotlivá klíčová spojení. Toto nebude naráz, ale postupně.

Spekulace: Nevím kolik je na tom pravdy, ale seznam prý má určitý seznam keywordů a slovních kombinací na které postupně řadí stránky. Jak je postupně přepočítává tak se bude dostávat stránka do indexu (už seřazených stránek).

Takže pro dnešek stačilo a příště se podíváme na to jak se vyhnout zbytečné penalizaci a pár základních informací o tom jak hned po indexaci se zbytečně nepropadnout moc dozadu. Jestli chcete o čemkoliv spekulovat nebo máte aktuálnější informace tak klidně napište do diskuze.


Jak bude reklama vypadat?
-
Nechceš zde reklamu napořád jen za 60 Kč?
Zobrazit formulář pro nákup

8 komentářů

  1. jen taková drobnost, http hlavička 301 podle mě není “dočasně přemístěno”, ale “trvale přemístěno” – Moved permanently nebo nějak podobně

  2. Já jsem někde četl, že google se nelíbí, když na neexistující stránku vráti server něco jiného než 404. Z pohledu vyhledávače je celkem jednoduché si to ověřit.

    za vše hovoří hláška z webmaster tools…
    We’ve detected that your 404 (file not found) error page returns a status of 200 (Success) in the header.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.