404 vs 410 – test skuteczności usuwania

404 google Standardowa odpowiedź serwera www dla nieistniejącego zasobu to 404 „not found” – nie znaleziono.

Przedstawianie takiej informacji o nieistniejącej zasobach wraz nagłówkiem 404 powinno być standardem na każdej witrynie www.
Oczywiście nie wszyscy twórcy witryn przejmują się takimi szczegółami i bywa, że skrypt „nie zauważa”, że podstrony już nie ma.
Podstawianie podstrony z informacją o błędzie 404 bez przekazywania nagłówka także jest popularne. Google rozpoznaje takie sytuacje i określa je jako pozorne błędy 404.
Nie wszycy wiedzą, że do usunięcia podstrony z indeksu Google można użyć innego nagłówka – 410 „Gone”. Dla Google jest to informacja o tym, że podstrona została usunięta – „odeszła” jak tłumaczy te słowo Translator Google :).

Kilka lat temu czytałem wywiad z kimś z Google, niestety nie pamiętam z kim, i był tam poruszony temat nagłówków 404 i 410. Zainteresowała mnie informacja o tym, że Google inaczej interpretuje te nagłówki i reaguje na nie inaczej.
404 to informacja o tym, że adresu nie znaleziono a 410 informuje o tym, że adres został usunięty. Był ale poszedł i nie wróci :) W związku z tym dla algorytmów 410 jest mocniejszym przekazem.

Zacząłem więc używać nagłówków 410 przy usuwaniu podstron, wychodząc z założenia, że mocniejszy przekaz 410 spowoduje szybsze usunięcie niż 404. I przyznam się, że miałem wrażenie, że rzeczywiście tak jest. Podstrony były usuwane szybko i bez problemowo.

Co ciekawe, szukając tego wywiadu natknąłem się na ten tekst, w którym poruszają tą samą sprawę podpierając się słowami Matta Cuttsa. Matt dodaje ciekawą informację – otrzymując 404 system czeka jakiś czas bo podstrona może wrócić, 410 jest jasnym sygnałem, że nie wróci.

Test 404 vs 410

Jak już napisałem powyżej używam nagłówków 410 do usuwania stron od dłuższego czasu, nie stronie też od 404. By dowiedzieć się, który jest lepszy postanowiłem to przetestować.

Do testu wybrałem 10 domen. 5 domen dla 404 i 5 dla 410.

Istotne dla mnie było to by domeny był starsze niż rok oraz by witryny miały zaindeksowane odpowiednią liczbę podstron. Nie chciałem by podstron było mało lub bardzo dużo. Wybrałem więc domeny, które miały site pomiędzy 92 a 255.

By zachować równowagę nie usuwałem treści witryn, wstawiłem na nie tylko skrypt wysyłający botom Google odpowiedni nagłówek. Witryny więc istniały, użytkownicy oraz inne boty mogły je używać.
Chciałem dodatkowo przetestować czy nagłówki mają priorytet nad treścią ale o tym później.

Rozpocząłem test pod koniec listopada 2014 a zakończyłem dziś. W tym czasie wykonałem 7 pomiarów w różnych odstępach czasu. Nie chciałem monitorować tych witryn każdego dnia, bo doszedłem do wniosku, że miałbym problem z interpretacją tak dużej ilości danych.
Tym bardziej, że wydaje mi się, że taka dokładność nie jest istotna.

Wyniki

W poniższych tabelach przestawiam informację dotyczące stanu indeksacji w Google w poszczególne dni od dnia rozpoczęcia.

Grupa A - witryny usuwane nagłówkiem 410
domena start dzień 2 dzień 6 dzień 9 dzień 14 dzień 34 dzień 66
1a 255 253 161 140 116 35 2
2a 164 154 63 53 43 19 6
3a 204 188 98 91 66 40 7
4a 129 126 55 40 9 1 0
5a 233 211 130 103 93 11 3

Grupa B - witryny usuwane nagłówkiem 404
domena start dzień 2 dzień 6 dzień 9 dzień 14 dzień 34 dzień 66
1b 92 92 66 2 0 0 0
2b 175 173 161 114 87 3 0
3b 139 137 128 64 83 0 0
4b 122 124 112 24 7 0 0
5b 162 162 148 83 54 4 2

Zanim przejdę do mojej oceny wyników jeszcze jedna tabelka. Tym razem zestawienie zmian dla całych grup.

Zmiana % poziomu zindeksowania
nagłówek start dzień 2 dzień 6 dzień 9 dzień 14 dzień 34 dzień 66
410 ilość 985 932 507 427 327 106 18
410 zmiana % 100% 94,6% 51,5% 43,4% 33,2% 11% 2%
404 zmiana % 100% 99,7% 89,1% 41,6% 33,5% 1% 0%
404 ilość 690 688 615 287 231 7 2

Dopiero tworząc powyższą tabelę zauważyłem, że grupa, na której był nagłówek 404 posiadała mniej podstron. Jestem jednak przekonany, że nie jest to bardzo istotne jeśli spojrzymy na wyniki procentowo.

Podsumowanie

Patrzę na powyższe zestawienia i widzę, że wynik testu jest bardzo ciekawy.

Witryny usuwane poprzez nagłówek 410 od razu zanotowały spadek ilości podstron. Pomiar w dniu drugim odbył się po około 40-44 godzinach od rozpoczęcia testu. I już wtedy grupa witryn z 410 zanotowała ponad 5% spadek ilości podstron. W tym czasie na witrynach z nagłówkiem 404 niewiele się działo.
Spadek o 0,3% czyli 2 podstrony prawdopodobnie był wynikiem zwykłych zmian w indeksie a nie moim testem.

Za to zmiana w Grupie B w 6 dniu na pewno była spowodowana moimi działaniami – różnica wynosi prawie 11%. To jednak nie jest dużo patrząc co się stało w Grupie A gdzie zostało usuniętych 48,5%. To naprawdę niezły wynik.

Pomiar w dni 9 przynosi ciekawą sytuację. Patrząc na poprzednie wyniki można by było domniemywać, że Grupa A zdeklasuje Grupę B ale jak widzimy stało się coś innego.
Google na witrynach z 404 usunęło więcej podstron na witrynach z 410. Fakt, że różnica nie jest duża ale to w Grupie B witryna 1b została prawie w całości usunięta. Zostały jej tylko tylko 2 podstrony, które znikły w pomiarze zrobionym w 14 dniu. Tym sposobem domena 1b została usunięta jako pierwsza w ciągu 2 tygodni.
Łącznie jednak jest remis, obydwie grupy posiadają około 33% podstron w stosunku do ilości początkowej.

W kolejny pomiarze zrobionym z 34 dniu, witryny emitujące 404 już prawie nie istniały. Witrynom z 410 zostało jeszcze 11% podstron.

Ostatni pomiar – 4 witryny z 404 znikły w całości w porównaniu do 1 odpowiadającej nagłówkiem 410.

Podsumowując w pierwszym tygodniu skuteczniejszy był nagłówek 410 a później różnice się zatraciły i wygrał 404.

Przyznam się, że przed testem byłem pewien, że usuwanie poprzez 410 daje lepsze efekty. Tak jak napisałem powyżej, ten nagłówek daje mocny ostateczny przekaz.
Jak widać jednak Google postrzega różnicę między tymi informacjami na poziomie niuansów.
404 na kilka dni wstrzymuje „egzekucje” ale później, jak już minie ten czas Google jest bezwzględne.

Można więc spokojnie napisać, że stosowanie nagłówka 410 ma znaczenie jedynie w sytuacji gdy potrzebujemy szybkiego usunięcia jak największej ilości podstron w ciągu kilku dni.
Jeśli potrzeba nie jest pilna i można poczekać 2 tygodnie to 404 jest odpowiednia,. Tym bardziej, że później jest już tylko lepiej.

Jak pamiętacie rozpoczynając test pozostawiłem witryny na serwerze, jedynie dodałem skrypt z informacją dla Google. Chciałem przy okazji sprawdzić czy dla Google to jakaś różnica.
Witryny zostały wyindeksowane co oznacza, że treść nie gra roli. Google nie interesuje treść gdy otrzymuje taki nagłówek.

Przy pobieraniu w GWT jako Googlebot podstron z 404 otrzymujemy informację, że podstrony nie znaleziono.

pobierz jako googlebot 404

Jest to mylące bo podstrona jest w całości pobierana, prawdopodobnie nagłówek powoduje, że nie jest przetwarzana.

Parę dni temu znalazłem informacje potwierdzającą to, że gdy Google otrzyma taki nagłówek to ignoruje treść. Możecie się z tym zapoznać w tym artykule.

Z miłą chęcią zapoznałbym się z wynikami podobnego testu robione przez inną osobę. Mam nadzieje, że wynik byłby podobny.

A jakie są Wasze spostrzeżenia? Może ktoś obserwował te zagadnienie i ma podobne lub inne zdanie?

8 komentarzy

  1. Autor msurma dodany 1 luty, 2015

    Dobry test, ale wyniki zadziwiające. Byłem przekonany, że 410 lepiej poradzi sobie z usunięciem podstron z wyników wyszukiwania.

  2. Autor michal dodany 1 luty, 2015

    Czyli prosta i skuteczna metoda na wyindexowanie.

  3. Autor Marek dodany 2 luty, 2015

    Czyli nie bez przyczyny o nagłówku 410 niewielu z nas słyszało. Nie ma się co nim interesować.

  4. Autor tomasy dodany 2 luty, 2015

    Bardzo dobry test!

  5. Autor Piotr dodany 2 luty, 2015

    Dzięki, mam kilka domen, w których muszę pobawić się w wyindeksowanie nikomu niepotrzebnych podstron. Sprawdzę zarówno 404 jak i 410
    Pozdrawiam

  6. Autor mkane dodany 2 luty, 2015

    Jeśli pozycjoner nie „słyszał” o 410 to niech lepiej się tym nie chwali. Z testu wyszło, że warto się interesować ale tylko do pewnych celów. Nie ma sensu stosować go na stałe.

  7. Autor Antoni dodany 19 luty, 2015

    zdecydowanie lepszym zastosowaniem jest 404 i chyba mało kto słyszał o 410 ;)

  8. Autor Marta dodany 24 luty, 2015

    Czterystadziesiątka jest mi obca. Nie jestem jakimś ekspertem no ale wiadomo, że zwykły użytkownik internetu ma do czynienia z różnymi błędami na stronach. No i czterystaczwórka jest jakaś popularniejsza jakaś.