Co je to robots.txt
Jedná se o soubor, jehož smyslem je informovat roboty vyhledávačů, zejména o tom, jaké stránky nemají indexovat, neboli zahrnout do výsledků vyhledávání SERP. Robots.txt také umožňuje informovat roboty o umístění mapy webových stránek, určených právě pro roboty tzv. sitemap.xml.
Robots.txt toho umí více, například doporučit maximální rychlost procházení domény, ale v drtivé většině se používá právě k omezení přístupu robotů a navedení robotů na sitemap.xml.
Proč robots.txt používat
Pokud jej nepoužijete, tak váš web bude fungovat i bez něj. Roboti vyhledávačů váš web navštíví (jestliže se o něm dozvědí) a pokud nedostanou jiný druh zákazu k indexování, tak jej zaindexují i bez robots.txt.
Bohužel se vám může stát, že do výsledků vyhledávání (tzv. SERP) se dostane i takový obsah, který není žádoucí, aby se tam dostal.
Další nepříjemností je to, že vyhledávače budou vaše webové stránky považovat za menší autority než ty, jenž s vyhledávači komunikují podle pravidel (používají robots.txt). To se může negativně projevit na umístění vašeho webu v přirozených výsledcích vyhledávání a potažmo i menší návštěvnosti webových stránek.
Kde se robots.txt nachází
Nacházet se musí vždy na stejném místě, aby jej roboti dokázali nalézt a jmenovat se musí „robots.txt" (vše malými písmeny). Jeho místo v URL adrese je hned za doménou. Např. na tomto webu naleznete robots.txt na
URL: www.helpmark.cz/robots.txt a takto by měl být umístěn na každém webu.
Pokud tento soubor chcete nalézt na webovém serveru, tak se bude nacházet v tzv. kořenovém adresáři. To znamená, že nebude v žádném podadresáři. To platí pro statické weby a CMS jako je např. Joomla.
Jaké příkazy se v robots.txt používají?
- User-agent – určuje pro jaké roboty je daná část určena, pokud pro všechny, tak se zapisuje jako: User-agent: * (hvězdička znamená všichni)
- Disallow– zase říká jaké URL adresy nemá robot indexovat. Např.:
- Disallow: / (neindexuj žádnou stránku, všechny totiž začínají lomítkem),
- Disallow: /administrator (neindexuj všechny stránky jejichž URL začíná /administrtor, tj. neindexuj stránky patřící CMS systému).
- Sitemap – určuje kde roboti naleznou sitemap.xml (více o významu sitemap naleznete zde)
Jak soubor upravit
Je to velice jednoduché. Stačí jej otevřít v jakémkoli textovám editoru (Poznámkový blok, MS Office, OpenOffice, PSPad ...), upravit a opět uložit jako prostý text (s příponou *.txt).
Pokud si chcete ověřit správnost svého souboru robots.txt, pak můžete použít následující odkaz:
http://tool.motoricerca.info/robots-checker.phtml