W czerwcu Google zaktualizowało swoją dokumentację dotyczącą GoogleBota.
Wśród wielu informacji znalazła się także ta o limicie pobierania danych podczas pobierania zasobów witryny.
Googlebot może zindeksować pierwsze 15 MB pliku HTML lub obsługiwanego pliku tekstowego. Wszystkie zasoby wymienione w kodzie HTML, takie jak obrazy, filmy, pliki CSS i JavaScript, są pobierane oddzielnie. Po przeskanowaniu pierwszych 15 MB pliku Googlebot zatrzymuje się i podczas indeksowania uwzględnia tylko te 15 MB.
Limity pobierania danych nie są nowością, jeszcze lekko ponad 10 lat temu Google pobierało tylko pierwsze 100KB. Po zmianie mechanizmów limit ten został znacznie zwiększony.
Jak widać jednak stale Google wprowadza ograniczenia i warto o tym pamiętać.
Czytając dokładnie informacje od Google wiemy od razu, że limit ten nie dotyczy strony jako całości. Czyli to, że strona „waży” np. 20MB nie oznacza automatycznie, że nie zostanie w całości pobrana.
Limit dotyczy każdego pobieranego pliku z osobna. Przestrzegany jest przez obydwa typy botów czyli mobilny i desktop.
Stosowany jest dla nieskompresowanych plików tekstowych oraz typów takich jak:
Adobe Flash (swf)
Adobe Portable Document Format (.pdf)
Adobe PostScript (.ps)
Autodesk Design Web Format (.dwf)
Google Earth (.kml, .kmz)
GPS eXchange Format (gpx)
Hancom Hanword (hwp)
HTML (htm, html, inne rozszerzenia plików)
Microsoft Excel (xls, xlsx)
Microsoft PowerPoint (ppt, pptx)
Microsoft Word (doc, docx)
OpenOffice – prezentacja (odp)
OpenOffice – arkusz kalkulacyjny (ods)
OpenOffice – tekst (odt)
Rich Text Format (.rtf)
Skalowalna grafika wektorowa SVG (svg)
TeX/LaTeX (tex)
Tekst (txt, text, inne rozszerzenia plików), w tym kod źródłowy w popularnych językach programowania:
Kod źródłowy Basic (bas)
Kod źródłowy C/C++ (.c, .cc, .cpp, .cxx, .h, .hpp)
Kod źródłowy C# (.cs)
Kod źródłowy Java (java)
Kod źródłowy Perl (.pl)
Kod źródłowy Python (.py)
Wireless Markup Language (wml, wap)
XML (xml)
W siódmej linii jest wymieniony także HTML i jeśli on sam miał więcej niż 15 MB to wszystko poniżej nie byłoby już przeczytane.
Takie sytuacje zdarzają się jednak bardzo rzadko, większość stron bez problemu zamyka siew 100KB dla samego HTML np. obecnie strona główna mojego bloga to tylko 21,3KB.
Także patrząc na samą stronę najczęściej nie ma co się martwić – 15MB to naprawdę dużo treści.
Zastanawiałem się kiedy sam HTML może być większy niż 15MB i jedne co przychodzi mi na myśl to skrypty, które kodują zdjęcia dla base64 i w ten sposób umieszczają je w kodzie strony.
Przy ich dużej ilości kod może znacząco się zwiększyć.
Do sprawdzenia wystarczy użyć jak jak ja powyżej narzędzi programistycznych z przeglądarki – przycisk F12.
Kiedy warto pamiętać o limicie?
Sama strona jak pisałem powyżej jest bezpieczna ale w wymienionych typach plików widać takie pliki jak:
Adobe Portable Document Format (.pdf)
Microsoft Excel (xls, xlsx)
Microsoft PowerPoint (ppt, pptx)
Microsoft Word (doc, docx)
OpenOffice – prezentacja (odp)
OpenOffice – arkusz kalkulacyjny (ods)
OpenOffice – tekst (odt)
Rich Text Format (.rtf)
Jak widać limit może objąć pliki typu PDF, arkusze kalkulacyjne czy też prezentacje.
15 MB dla instrukcji w PDF czy też prezentacji to nie jest dużo, bardzo łatwo ten rozmiar przekroczyć.
Należy więc w takich plikach, jeśli świadomie mają być indeksowane i generować ruch, ważne elementy umieszczać na początku lub podzielić je tak by mieściły się w limicie.
W innym przypadku ich zawartość tylko w części zostanie pobrana przez Google.