Po co mi plik robots.txt?

Napisane 28 luty, 2019 3

Gdy roboty Google lub innej wyszukiwarki wchodzą pierwszy raz, w sesji, na witrynę to właśnie plik robots.txt jest pobierany i przetwarzany przed pobraniem jakiejkolwiek innego adresu.

Czasami nie zdajemy sobie sprawy ile razy dziennie taki plik jest wywoływany. Trzeba dodać, że najczęściej nawet nie zdajemy sobie sprawy, że taki plik istnieje.

Po co więc ten plik jest i dlaczego Google zwraca na niego uwagę ?

Jest to plik, w którym dodajemy informacje gdzie mogą a gdzie nie mogą wchodzić boty przeglądarek internetowych.

Kiedyś do tego używany był tylko meta tag robots, którym można było poinformować wyszukiwarkę czy pozwalamy daną stronę indeksować czy też nie.

Ale wykorzystanie do tego kodu strony wymagało wiedzy i możliwości edycji strony.

Dlatego powstał standard robots.txt i plik, w którym każdy z minimalną wiedzą może łatwo to zrobić.

Same polecenia są proste i określają tylko komu co zabraniamy lub co pozwalamy.

Składnia pliku robots.txt

User-agent: Tu wpisujemy kto np Googlebot
Disallow: Tu wpisujemy co zabraniamy np /admin/

Przykład 1
Najprostszy plik może mieć postać:
User-agent: Googlebot Disallow: /admin/
Zabroniliśmy tym samym robotom Google odwiedzać i indeksować katalog /admin/.
Wpisując katalog zabraniamy wejścia na każdą stronę w tym katalogu, nie trzeba więc i dodać każdej podstrony osobno.

Przykład 2
User-agent: * Disallow: /

User-agent: Googlebot Allow: /
W tym przykładzie zabroniłem wszystkim botom oprócz Google wejścia na stronę. Zablokowana została cała witryna.

Przykład 3
User-agent: * Disallow: /admin/ Disallow: /wp-content/ User-agent: Bingbot Disallow: /seo/ Disallow: /pozycjonowanie/

Sitemap: https://mkane.antygen.pl/sitemap.xml
Trzeci przykład to blokada wejścia dla wszystkich botów do katalogu /admin/ i /wp-content/ oraz dla Bingngbot do dwóch dodatkowych folderów /seo/ i /pozycjonowanie/.
A w ostatniej linii wskazana została lokalizacja pliku z mapą xml.

Najważniejsze zasady

Gdzie umieszczamy plik:

• Jedyna poprawna nazwa to robots.txt i dla jednej witryny dopuszczalny jest tylko jeden plik. Wpisujemy w nim wszytkie potrzebne reguły dla tej witryny.
• Plik robots.txt umieszczany w katalogu głównym tak by można go było wywołać tak jak mój https://mkane.antygen.pl/robots.txt. Każda inna lokalizacja jest błędna.
• Subdomeny mają swoje własne pliki robotst.xt
• Wszystkie linie zaczynające się znakiem # traktowane są jako komentarz.

Składnia:

• Robotst.tx musi być plikiem tekstowym w kodowaniu ASCII lub UTF-8.
• Pusty plik robots.txt nie jest przydatny i nie musi znajdować się na serwerze.
• Każda reguła może składać się z wielu instrukcji, po jednej w jednym wierszu:
– do jakiego bota zastosowanie ma reguła,
– do których katalogów lub plików bot ma dostęp;
– do których katalogów lub plików bot nie ma dostępu.
• Plik jest czytany od góry.
• Z założenia bot może indeksować wszystko co nie jest wpisane w Disallow:.
• Wielkość liter ma znaczenie. index.html i Index.html to dwa różne pliki.

Możliwe dyrektywy w pliku robots.txt:

• User-agent: nazwa bota wyszukiwarki. Zawsze jest to pierwszy wiersz reguły.
• W User-agent: * Użycie gwiazdki * oznacza, że zapis dotyczy wszystkich botów.

• Disallow: Reguła zabraniająca.
• Disallow: / Użycie znaku / oznacza, że zabraniamy wszytko. Zamiennie można użyć gwiazdkę *. Katalogi zawsze muszą być zakończone znakiem /.

• Allow: Reguła zezwalająca.
• Allow: / Użycie znaku / oznacza, że pozwalamy pobierać wszytko. Zamiennie można użyć gwiazdkę *. Katalogi zawsze muszą być zakończone znakiem /.

•Sitemap: podanie lokalizacja mapy witryny. Adres musi być kompletnym adresem czyli z podaniem protokołu, domeny i lokalizacji.

Ważne

W tym miejscu warto dodać, że Google a pewnie i także inne wyszukiwarki, mogą pobrać i zindeksować zabronione w tym pliku adresy.

Może tak się stać jeśli zabronimy adresy, które są linkowane z zewnątrz.

Google zaleca by w takich przypadkach używać meta tagu robots a nie zapisów blokujących w pliku robots.txt.

Podsumowanie

Plik robots.txt to szybki sposób na ograniczenie swobody botów wyszukiwarek internetowych i tego co indeksują.

Jego prostota, brak skomplikowanych reguł i natychmiastowe działanie to elementy, które warto wykorzystać myśląc o SEO swojej witryny.

3 komentarze

Autor East Polska dodany 6 marzec, 2019

Dużo przydatnych informacji, rozpisanych w czytelny i jasny dla każdego sposób. Pozdrawiam
Autor Sławomir Kuśnierczak dodany 10 marzec, 2019

Jestem bardzo ciekawy ile osób to wszystko zainteresuje.
Autor mkane dodany 13 marzec, 2019

Po liczbie pytań od Klientów i innych osób wygląda, że wiele.