Co přesně dělá robots.txt a proč na něm záleží

Soubor robots.txt je první instrukce, kterou si vyhledávač obvykle přečte po příchodu na web. Neříká mu, co má indexovat, ale kam smí a kam nesmí lézt. Právě proto je tak citlivý: špatně napsaná direktiva může zablokovat celé sekce webu, administraci, CSS soubory nebo dokonce všechny stránky.

Google i další roboti robots.txt respektují jako standard pro řízení crawlování. Pokud je soubor nedostupný, robot se chová jinak, než když je přítomný a zakazuje přístup. V běžném provozu to znamená jediné: když je v robots.txt chyba, nemusí se projevit hned vizuálně, ale v datech ji uvidíte velmi rychle.

Typický dopad je pokles počtu procházených URL v Google Search Console, horší aktualizace obsahu v indexu a zpoždění při objevování nových stránek. U větších webů se problém může rozšířit i na kanonizaci a renderování, pokud je zablokovaný přístup ke skriptům a stylům.

Nejčastější chyba: jediné „Disallow: /“

Nejhorší scénář je překvapivě prostý. Direktiva Disallow: / říká robotovi, aby neprocházel celý web. Pokud je napsaná v sekci pro User-agent: *, Googlebot se na web v podstatě nedostane.

Chyba vzniká často při vývoji, před spuštěním webu nebo při migraci. Vývojář nechá dočasné omezení, aby web nebyl indexovaný během testování, a po nasazení zapomene soubor upravit. Výsledek je vidět v praxi během několika dnů: nové stránky se neobjevují v indexu, staré ztrácejí viditelnost a organická návštěvnost se může propadnout i o desítky procent.

Reálný problém nemusí být jen v celé doméně. Stačí špatně zadaná cesta, například Disallow: /blog místo Disallow: /blog/ v kombinaci s konkrétní strukturou URL, nebo blokace parametrů, které jsou ve skutečnosti důležité pro obsah. U e-shopů bývá častý omyl v blokování kategorií s filtrováním, které generují hodnotné landing pages.

Jak Google čte robots.txt v praxi

Google si soubor robots.txt obvykle načte před samotným procházením obsahu. Platí to pro každého robota zvlášť, protože pravidla mohou být rozdílná pro Googlebot, Googlebot-Image nebo další user-agenty. Rozhodující je vždy nejkonkrétnější shoda a pořadí pravidel v rámci dané sekce.

Je důležité rozlišovat mezi blokací crawlování a indexací. Když stránku zakážete v robots.txt, Google ji nemusí procházet, ale pokud na ni vede odkaz z jiného webu, může se někdy objevit v indexu bez obsahu nebo s omezenými informacemi. To je častý omyl: robots.txt není nástroj pro „smazání“ URL z výsledků vyhledávání.

Pro odstranění z indexu se používá kombinace noindex, správných přesměrování, odstranění interních odkazů a případně nástroje pro dočasné skrytí v Search Console. Pokud je stránka blokovaná v robots.txt, Google nemusí vidět ani její meta tagy, a tedy ani noindex. To je zásadní technická nuance.

Kdy je blokace správně a kdy škodí

Robots.txt má své místo. Správně se používá například pro:

  • administrační části webu, přihlášení a interní systémy,
  • duplicitní technické URL s parametry, které nemají hodnotu pro uživatele,
  • testovací prostředí, staging a vývojové subdomény,
  • crawl budget management u rozsáhlých webů s miliony URL.

Naopak škodí, pokud blokujete:

  • hlavní obsahové sekce, které mají rankovat ve vyhledávání,
  • CSS a JavaScript soubory potřebné pro renderování stránky,
  • obrázky u vizuálně důležitých webů,
  • stránky, které mají být odstraněny z indexu, ale stále mají být procházené kvůli validaci noindexu.

U moderních webů je problémem hlavně renderování. Google dnes nehodnotí jen HTML, ale i to, co stránka po vykreslení skutečně obsahuje. Když zablokujete skripty nebo stylesheety, může Google vidět neúplnou verzi stránky, což ovlivní vyhodnocení obsahu, použitelnosti i Core Web Vitals.

Jak chybu rychle odhalit: kontrola, nástroje a signály

První místo kontroly je Google Search Console. V sekci pro kontrolu URL lze ověřit, zda je stránka dostupná pro procházení a indexaci. Pokud je problém v robots.txt, uvidíte hlášku o zablokovaném přístupu.

Druhým krokem je přímá kontrola souboru na adrese https://vasedomena.cz/robots.txt. Soubor musí být dostupný přes HTTPS, bez přesměrovacích chyb a bez technických výpadků. I krátká nedostupnost může způsobit, že Google dočasně změní chování při crawlování.

Praktický postup kontroly:

  • otevřete robots.txt v prohlížeči i přes nástroj curl,
  • ověřte, zda nejsou zakázané celé důležité sekce,
  • zkontrolujte, zda nejsou blokované CSS a JS soubory,
  • projděte logy serveru a sledujte frekvenci Googlebotu,
  • porovnejte data v Search Console s organickou návštěvností v GA4.

Velmi užitečné jsou také serverové logy. Ty ukážou, zda Googlebot skutečně přichází, kam se dostává a kde dostává 403, 404 nebo 5xx odpovědi. U větších webů to bývá přesnější než samotná Search Console, která ukazuje jen část reality.

Pro testování pravidel lze využít i nástroje třetích stran nebo vlastní skript, který simuluje chování robota. U týmů, které web spravují ve více lidech, se osvědčuje jednoduchý checklist před nasazením: změna robots.txt musí projít code review stejně jako změna šablony nebo přesměrování.

Jak nastavit robots.txt tak, aby pomáhal, neblokoval

Nejlepší robots.txt je stručný, přehledný a bez experimentů. Měl by obsahovat jen to, co je skutečně potřeba. U menších webů často stačí několik řádků. U rozsáhlejších projektů je vhodné pravidla dokumentovat, aby bylo jasné, proč tam jsou a co chrání.

Praktická doporučení pro provozní tým:

  • oddělte staging a produkci, staging nikdy neřešte stejným robots.txt jako ostrý web,
  • nepoužívejte robots.txt jako náhradu za bezpečnostní ochranu,
  • pro odstranění z indexu preferujte noindex nebo přesměrování,
  • před migrací otestujte nový soubor na kopii webu,
  • po nasazení sledujte Search Console minimálně několik dní.

U WordPressu bývá častý problém v tom, že šablony, pluginy nebo bezpečnostní doplňky automaticky upraví robots.txt bez jasné kontroly. U custom řešení zase hrozí, že soubor generuje aplikace dynamicky a chyba v šabloně zablokuje celý web. V obou případech je nejlepší mít robots.txt pod verzováním, ideálně v repozitáři a s jasným schvalovacím procesem.

Pokud web přechází na nový framework, například Next.js nebo headless řešení, je potřeba zkontrolovat nejen samotný soubor, ale i to, zda ho server skutečně servíruje na správné URL a zda nevzniká konflikt mezi CDN, cache a aplikační logikou. I drobná změna v deployi může způsobit, že robot dostane jinou verzi souboru než uživatel.

Co sledovat po změně, aby se problém neopakoval

Po úpravě robots.txt je potřeba sledovat několik signálů najednou. V Search Console kontrolujte stav indexace, počet procházených stránek a případné chyby v dostupnosti. V GA4 sledujte organickou návštěvnost na důležitých vstupních stránkách. V serverových logech hledejte návrat Googlebotu na sekce, které byly dříve blokované.

U větších webů se vyplatí nastavit alerty na pokles crawl rate, na změnu počtu indexovaných URL a na nárůst 403 či 5xx odpovědí. Změna v robots.txt se totiž nemusí projevit jen na organice, ale i na tom, jak rychle Google objevuje nové produkty, články nebo úpravy cen.

V technickém SEO platí jednoduché pravidlo: čím méně překvapení v robots.txt, tím méně škod v indexaci. Jedna špatná direktiva nemusí být vidět na první pohled, ale pro vyhledávač může znamenat, že váš web přestane být prakticky čitelný. A právě proto je tento soubor vhodné kontrolovat stejně pečlivě jako přesměrování, sitemapu nebo stav serveru.