MENU

Co je to robots.txt

Jedná se o soubor, jehož smyslem je informovat roboty vyhledávačů, zejména o tom, jaké stránky nemají indexovat, neboli zahrnout do výsledků vyhledávání SERP. Robots.txt také umožňuje informovat roboty o umístění mapy webových stránek, určených právě pro roboty tzv. sitemap.xml.

Robots.txt toho umí více, například doporučit maximální rychlost procházení domény, ale v drtivé většině se používá právě k omezení přístupu robotů a navedení robotů na sitemap.xml.

Proč robots.txt používat

Pokud jej nepoužijete, tak váš web bude fungovat i bez něj. Roboti vyhledávačů váš web navštíví (jestliže se o něm dozvědí) a pokud nedostanou jiný druh zákazu k indexování, tak jej zaindexují i bez robots.txt.

Bohužel se vám může stát, že do výsledků vyhledávání (tzv. SERP) se dostane i takový obsah, který není žádoucí, aby se tam dostal.

Další nepříjemností je to, že vyhledávače budou vaše webové stránky považovat za menší autority než ty, jenž s vyhledávači komunikují podle pravidel (používají robots.txt). To se může negativně projevit na umístění vašeho webu v přirozených výsledcích vyhledávání a potažmo i menší návštěvnosti webových stránek.

Kde se robots.txt nachází

Nacházet se musí vždy na stejném místě, aby jej roboti dokázali nalézt a jmenovat se musí „robots.txt" (vše malými písmeny). Jeho místo v URL adrese je hned za doménou. Např. na tomto webu naleznete robots.txt na
URL: www.helpmark.cz/robots.txt a takto by měl být umístěn na každém webu.

Pokud tento soubor chcete nalézt na webovém serveru, tak se bude nacházet v tzv. kořenovém adresáři. To znamená, že nebude v žádném podadresáři. To platí pro statické weby a CMS jako je např. Joomla.

Jaké příkazy se v robots.txt používají?

  • User-agent – určuje pro jaké roboty je daná část určena, pokud pro všechny, tak se zapisuje jako: User-agent: * (hvězdička znamená všichni)
  • Disallow– zase říká jaké URL adresy nemá robot indexovat. Např.:
    • Disallow: / (neindexuj žádnou stránku, všechny totiž začínají lomítkem),
    • Disallow: /administrator (neindexuj všechny stránky jejichž URL začíná /administrtor, tj. neindexuj stránky patřící CMS systému).
  • Sitemap – určuje kde roboti naleznou sitemap.xml (více o významu sitemap naleznete zde)

Jak soubor upravit

Je to velice jednoduché. Stačí jej otevřít v jakémkoli textovám editoru (Poznámkový blok, MS Office, OpenOffice, PSPad ...), upravit a opět uložit jako prostý text (s příponou *.txt).

Pokud si chcete ověřit správnost svého souboru robots.txt, pak můžete použít následující odkaz:
http://tool.motoricerca.info/robots-checker.phtml

Pokud nevíte, neváhejte se zeptat

© HelpMark | Tomáš Herout | Tel: +420 739 719 548