Robots.txt

Robots.txt je textový súbor, ktorý sa umiestňuje do koreňového adresára webovej stránky (napr. www.example.com/robots.txt) a slúži na kontrolu prístupu pre webové roboty, najmä pre vyhľadávače, ktoré indexujú obsah stránok (ako je Googlebot, Bingbot alebo iné). Tento súbor obsahuje pokyny, ktoré určujú, ktoré časti webovej stránky môžu alebo nemôžu byť indexované alebo prechádzané robotmi.

Funkcie a význam robots.txt:

  1. Kontrola prístupu k obsahu: Pomocou súboru robots.txt môžete nastaviť pravidlá, ktoré určia, ktoré stránky alebo časti vášho webu môžu byť indexované vyhľadávačmi a ktoré nie. Napríklad, môžete zabrániť indexovaniu citlivých stránok alebo sekcií, ktoré nechcete zobraziť vo vyhľadávačoch.
  2. Optimalizácia výkonu: Niektoré stránky alebo súbory môžu byť príliš ťažké na indexovanie alebo môžu zbytočne zaťažovať servery vyhľadávačov. Robots.txt umožňuje blokovať prístup k týmto stránkam a šetriť tým systémové zdroje.
  3. Ochrana súkromia: Ak máte na stránke obsah, ktorý je určený iba pre určité osoby, alebo ak nechcete, aby určité citlivé informácie boli indexované (napríklad administratívne rozhrania), robots.txt môže byť použitý na ochranu tohto obsahu.

Základná štruktúra súboru robots.txt

Súbor robots.txt obsahuje pravidlá, ktoré sa skladajú z dvoch hlavných častí: User-agent a Disallow (alebo Allow).

  1. User-agent: Toto označuje konkrétny webový robot, na ktorého sa pravidlo vzťahuje. Môžete špecifikovať konkrétny robot, napríklad Googlebot, alebo použiť * (hviezdička) na označenie, že sa pravidlo vzťahuje na všetky roboty.
  2. Disallow: Určuje, ktoré časti stránky nesmú byť prehľadávané. Ak sa chcete vyhnúť indexovaniu určitej stránky, použijete tento príkaz.
  3. Allow: Tento príkaz môže byť použitý na výslovné povolenie prístupu k určitej stránke alebo sekcii, aj keď je inak blokovaná.

Príklady:

  1. Blokovanie všetkých robotov od indexovania celej stránky: User-agent: * Disallow: / Tento príkaz zabráni všetkým robotom prístup na celý web.
  2. Povolenie všetkých robotov na indexovanie celej stránky: User-agent: * Disallow: Tento príkaz znamená, že všetci roboti môžu indexovať všetky stránky webu.
  3. Blokovanie konkrétnej stránky (napr. „/private“): User-agent: * Disallow: /private/ Tento príkaz blokuje prístup k stránkam alebo adresárom, ktoré sú umiestnené v priečinku „private“.
  4. Povolenie prístupu k určitej stránke napriek blokovaniu celého adresára: User-agent: * Disallow: /private/ Allow: /private/public-page.html Tento príkaz blokuje prístup k celému adresáru „/private/“, ale umožňuje prístup k stránke „/private/public-page.html“.

Dôležité poznámky:

  • Nezabezpečuje úplné súkromie: Robots.txt nebráni prístupu k stránkam pre ľudí ani pre robotov, ktorí sa rozhodnú ignorovať súbor. Ak chcete zabezpečiť, aby bol obsah skrytý pred verejnosťou, mali by ste sa zamerať na ochranu prostredníctvom autentifikácie alebo meta tagov ako noindex.
  • Súbor je verejný: Každý, kto vie, ako sa na stránke pozrieť na súbor robots.txt, môže vidieť, ktoré časti stránky sú blokované. Preto sa robots.txt nemôže použiť na ochranu citlivých informácií.
  • Nie všetky roboty sa riadia robots.txt: Väčšina vyhľadávačov a serióznych robotov rešpektuje súbor robots.txt, ale existujú aj roboty, ktoré tento súbor ignorujú a prístup k stránkam si kontrolujú iným spôsobom.

Záver:

Robots.txt je dôležitým nástrojom v oblasti SEO a správy webových stránok, pretože umožňuje ovládať, ktoré stránky môžu byť indexované vyhľadávačmi. Správne nastavenie tohto súboru môže zlepšiť výkonnosť vášho webu a zabezpečiť, že citlivý alebo nepotrebný obsah nebude zahrnutý do výsledkov vyhľadávania.