Co přesně dělá robots.txt a proč na něm záleží
Soubor robots.txt je první instrukce, kterou si vyhledávač obvykle přečte po příchodu na web. Neříká mu, co má indexovat, ale kam smí a kam nesmí lézt. Právě proto je tak citlivý: špatně napsaná direktiva může zablokovat celé sekce webu, administraci, CSS soubory nebo dokonce všechny stránky.
Google i další roboti robots.txt respektují jako standard pro řízení crawlování. Pokud je soubor nedostupný, robot se chová jinak, než když je přítomný a zakazuje přístup. V běžném provozu to znamená jediné: když je v robots.txt chyba, nemusí se projevit hned vizuálně, ale v datech ji uvidíte velmi rychle.
Typický dopad je pokles počtu procházených URL v Google Search Console, horší aktualizace obsahu v indexu a zpoždění při objevování nových stránek. U větších webů se problém může rozšířit i na kanonizaci a renderování, pokud je zablokovaný přístup ke skriptům a stylům.
Nejčastější chyba: jediné „Disallow: /“
Nejhorší scénář je překvapivě prostý. Direktiva Disallow: / říká robotovi, aby neprocházel celý web. Pokud je napsaná v sekci pro User-agent: *, Googlebot se na web v podstatě nedostane.
Chyba vzniká často při vývoji, před spuštěním webu nebo při migraci. Vývojář nechá dočasné omezení, aby web nebyl indexovaný během testování, a po nasazení zapomene soubor upravit. Výsledek je vidět v praxi během několika dnů: nové stránky se neobjevují v indexu, staré ztrácejí viditelnost a organická návštěvnost se může propadnout i o desítky procent.
Reálný problém nemusí být jen v celé doméně. Stačí špatně zadaná cesta, například Disallow: /blog místo Disallow: /blog/ v kombinaci s konkrétní strukturou URL, nebo blokace parametrů, které jsou ve skutečnosti důležité pro obsah. U e-shopů bývá častý omyl v blokování kategorií s filtrováním, které generují hodnotné landing pages.
Jak Google čte robots.txt v praxi
Google si soubor robots.txt obvykle načte před samotným procházením obsahu. Platí to pro každého robota zvlášť, protože pravidla mohou být rozdílná pro Googlebot, Googlebot-Image nebo další user-agenty. Rozhodující je vždy nejkonkrétnější shoda a pořadí pravidel v rámci dané sekce.
Je důležité rozlišovat mezi blokací crawlování a indexací. Když stránku zakážete v robots.txt, Google ji nemusí procházet, ale pokud na ni vede odkaz z jiného webu, může se někdy objevit v indexu bez obsahu nebo s omezenými informacemi. To je častý omyl: robots.txt není nástroj pro „smazání“ URL z výsledků vyhledávání.
Pro odstranění z indexu se používá kombinace noindex, správných přesměrování, odstranění interních odkazů a případně nástroje pro dočasné skrytí v Search Console. Pokud je stránka blokovaná v robots.txt, Google nemusí vidět ani její meta tagy, a tedy ani noindex. To je zásadní technická nuance.
Kdy je blokace správně a kdy škodí
Robots.txt má své místo. Správně se používá například pro:
- administrační části webu, přihlášení a interní systémy,
- duplicitní technické URL s parametry, které nemají hodnotu pro uživatele,
- testovací prostředí, staging a vývojové subdomény,
- crawl budget management u rozsáhlých webů s miliony URL.
Naopak škodí, pokud blokujete:
- hlavní obsahové sekce, které mají rankovat ve vyhledávání,
- CSS a JavaScript soubory potřebné pro renderování stránky,
- obrázky u vizuálně důležitých webů,
- stránky, které mají být odstraněny z indexu, ale stále mají být procházené kvůli validaci noindexu.
U moderních webů je problémem hlavně renderování. Google dnes nehodnotí jen HTML, ale i to, co stránka po vykreslení skutečně obsahuje. Když zablokujete skripty nebo stylesheety, může Google vidět neúplnou verzi stránky, což ovlivní vyhodnocení obsahu, použitelnosti i Core Web Vitals.
Jak chybu rychle odhalit: kontrola, nástroje a signály
První místo kontroly je Google Search Console. V sekci pro kontrolu URL lze ověřit, zda je stránka dostupná pro procházení a indexaci. Pokud je problém v robots.txt, uvidíte hlášku o zablokovaném přístupu.
Druhým krokem je přímá kontrola souboru na adrese https://vasedomena.cz/robots.txt. Soubor musí být dostupný přes HTTPS, bez přesměrovacích chyb a bez technických výpadků. I krátká nedostupnost může způsobit, že Google dočasně změní chování při crawlování.
Praktický postup kontroly:
- otevřete robots.txt v prohlížeči i přes nástroj curl,
- ověřte, zda nejsou zakázané celé důležité sekce,
- zkontrolujte, zda nejsou blokované CSS a JS soubory,
- projděte logy serveru a sledujte frekvenci Googlebotu,
- porovnejte data v Search Console s organickou návštěvností v GA4.
Velmi užitečné jsou také serverové logy. Ty ukážou, zda Googlebot skutečně přichází, kam se dostává a kde dostává 403, 404 nebo 5xx odpovědi. U větších webů to bývá přesnější než samotná Search Console, která ukazuje jen část reality.
Pro testování pravidel lze využít i nástroje třetích stran nebo vlastní skript, který simuluje chování robota. U týmů, které web spravují ve více lidech, se osvědčuje jednoduchý checklist před nasazením: změna robots.txt musí projít code review stejně jako změna šablony nebo přesměrování.
Jak nastavit robots.txt tak, aby pomáhal, neblokoval
Nejlepší robots.txt je stručný, přehledný a bez experimentů. Měl by obsahovat jen to, co je skutečně potřeba. U menších webů často stačí několik řádků. U rozsáhlejších projektů je vhodné pravidla dokumentovat, aby bylo jasné, proč tam jsou a co chrání.
Praktická doporučení pro provozní tým:
- oddělte staging a produkci, staging nikdy neřešte stejným robots.txt jako ostrý web,
- nepoužívejte robots.txt jako náhradu za bezpečnostní ochranu,
- pro odstranění z indexu preferujte
noindexnebo přesměrování, - před migrací otestujte nový soubor na kopii webu,
- po nasazení sledujte Search Console minimálně několik dní.
U WordPressu bývá častý problém v tom, že šablony, pluginy nebo bezpečnostní doplňky automaticky upraví robots.txt bez jasné kontroly. U custom řešení zase hrozí, že soubor generuje aplikace dynamicky a chyba v šabloně zablokuje celý web. V obou případech je nejlepší mít robots.txt pod verzováním, ideálně v repozitáři a s jasným schvalovacím procesem.
Pokud web přechází na nový framework, například Next.js nebo headless řešení, je potřeba zkontrolovat nejen samotný soubor, ale i to, zda ho server skutečně servíruje na správné URL a zda nevzniká konflikt mezi CDN, cache a aplikační logikou. I drobná změna v deployi může způsobit, že robot dostane jinou verzi souboru než uživatel.
Co sledovat po změně, aby se problém neopakoval
Po úpravě robots.txt je potřeba sledovat několik signálů najednou. V Search Console kontrolujte stav indexace, počet procházených stránek a případné chyby v dostupnosti. V GA4 sledujte organickou návštěvnost na důležitých vstupních stránkách. V serverových logech hledejte návrat Googlebotu na sekce, které byly dříve blokované.
U větších webů se vyplatí nastavit alerty na pokles crawl rate, na změnu počtu indexovaných URL a na nárůst 403 či 5xx odpovědí. Změna v robots.txt se totiž nemusí projevit jen na organice, ale i na tom, jak rychle Google objevuje nové produkty, články nebo úpravy cen.
V technickém SEO platí jednoduché pravidlo: čím méně překvapení v robots.txt, tím méně škod v indexaci. Jedna špatná direktiva nemusí být vidět na první pohled, ale pro vyhledávač může znamenat, že váš web přestane být prakticky čitelný. A právě proto je tento soubor vhodné kontrolovat stejně pečlivě jako přesměrování, sitemapu nebo stav serveru.