Google widzi tylko 2 MB strony. I to zmienia więcej niż się wydaje

Google opublikowało niedawno wpis dotyczący działania swojego crawlera. Na pierwszy rzut oka to materiał techniczny, raczej dla developerów niż dla osób zajmujących się SEO.
W praktyce jednak zawiera jedną informację, która ma bezpośrednie przełożenie na widoczność w wyszukiwarce i sposób, w jaki należy patrzeć na strukturę strony.
TL;DR
Google pobiera tylko około 2 MB HTML. Wszystko dalej nie trafia do analizy.
W praktyce SEO dotyczy tylko tej części strony, którą Google faktycznie widzi.
2 MB HTML – The Final Frontier
Warto pamiętać, że Googlebot to nie jeden crawler, tylko część większej infrastruktury. Google korzysta z różnych typów botów, które obsługują nie tylko wyszukiwarkę, ale też inne produkty. Crawl nie jest więc pojedynczym procesem, tylko systemem rozproszonym.
W tym kontekście ograniczenia takie jak limit wielkości dokumentu przestają wyglądać jak detal techniczny, a bardziej jak element zarządzania zasobami na dużą skalę.
Google wskazuje, że pobiera ograniczoną część dokumentu HTML — do około 2 MB. Limit obejmuje całość odpowiedzi, czyli HTML razem z nagłówkami HTTP. Po jego przekroczeniu proces pobierania jest przerywany.
To oznacza, że dalsza część dokumentu nie trafia do analizy.
Limit dotyczy przede wszystkim HTML. Dla innych typów zasobów wygląda to inaczej — przykładowo dla plików PDF Google podaje znacznie wyższy próg (do 64 MB), a zasoby takie jak CSS czy JavaScript są pobierane osobno i nie wchodzą bezpośrednio w ten sam limit.
W praktyce jednak to HTML jest kluczowy, bo to on stanowi podstawę dalszego przetwarzania.
Ucięta strona nadal jest „poprawna”
Istotne jest to, że przekroczenie limitu nie jest traktowane jako błąd. Strona nie jest odrzucana ani oznaczana jako problematyczna. Google po prostu przetwarza tę część dokumentu, którą udało się pobrać.
Oznacza to, że możliwa jest sytuacja, w której:
- dokument jest technicznie kompletny,
- strona się poprawnie ładuje,
- wszystkie elementy są dostępne dla użytkownika,
ale w procesie indeksacji uwzględniona zostaje tylko część zawartości.
To samo dotyczy renderowania. Web Rendering Service wykonuje JavaScript i buduje finalny DOM, ale działa wyłącznie na danych, które zostały wcześniej pobrane. Jeśli część treści lub danych znajduje się poza limitem, nie będzie obecna ani w analizie HTML, ani w procesie renderowania.
Co to zmienia w praktyce
Z perspektywy SEO oznacza to przesunięcie punktu ciężkości. Nie chodzi już wyłącznie o to, czy dana treść znajduje się na stronie, ale czy znajduje się w tej części dokumentu, która faktycznie jest przetwarzana przez Google.
Ma to kilka konsekwencji.
Po pierwsze, znaczenia nabiera kolejność elementów w HTML. Metadane, treści czy dane strukturalne umieszczone zbyt daleko w dokumencie mogą w praktyce nie zostać uwzględnione.
Po drugie, istotna staje się objętość samego dokumentu. Duże ilości inline JavaScript, CSS czy danych, na przykład duże bloki danych osadzane w HTML (np. JSON potrzebny do działania JavaScriptu), zwiększają rozmiar HTML i mogą wypychać istotne elementy poza zakres analizy.
Po trzecie, crawl budget należy rozumieć szerzej. Nie dotyczy on wyłącznie liczby adresów URL, ale również ilości danych, które Google musi pobrać i przetworzyć.
Najbardziej widać to w rozbudowanych serwisach — szczególnie tam, gdzie strony generują dużo kodu i danych. Dotyczy to m.in. dużych e-commerce czy projektów opartych o nowoczesne frameworki. W takich przypadkach HTML potrafi być bardzo rozbudowany, mimo że z punktu widzenia użytkownika wszystko działa poprawnie.
Taka sytuacja może wystąpić np. przy rozbudowanym menu opisanym wieloma liniami kodu. Zdarzyło mi się raz, że w Shoperze kod menu miał 37 tys. linii.
Podsumowanie
Google nie analizuje całej zawartości strony, lecz jej fragment mieszczący się w określonym limicie. W praktyce oznacza to, że skuteczność działań SEO zależy nie tylko od tego, co znajduje się na stronie, ale również od tego, jak duży jest dokument HTML i w jaki sposób jest zbudowany.
Warto przy tym zaznaczyć, że 2 MB to stosunkowo dużo i w wielu przypadkach strony są znacznie mniejsze. Nie jest to więc problem, który dotyczy każdego projektu.
Mimo to dobrze mieć to na uwadze w procesie optymalizacji, szczególnie w większych serwisach lub w sytuacjach, gdy pojawia się problem z widocznością konkretnej podstrony i trudno jednoznacznie określić jego przyczynę. W takich przypadkach warto sprawdzić, jak duży jest faktycznie dokument HTML i czy kluczowe elementy mieszczą się w jego początkowej części.
FAQ
Czy limit 2 MB HTML jest realnym problemem?
W większości przypadków nie. Typowe strony są znacznie mniejsze, ale problem może pojawić się w dużych serwisach lub przy rozbudowanym kodzie.
Czy Google ignoruje resztę strony?
Jeśli dokument przekroczy limit, dalsza część nie jest analizowana.
Kiedy warto to sprawdzić?
Przy większych serwisach lub gdy pojawia się problem z widocznością konkretnej podstrony.
Komentarzy(0)
