Posty z kwiecień, 2010

Czyszczenie katalogów

Przez ostatnie 4 tygodnie powoli czyściłem swoje dwa moderowane katalogi. Powstały około 5 lat temu od tamtego czasu nie sprawdzałem co się dzieje z wpisami.

Nie nudzę się jak ktoś mógłby pomyśleć, do porządków zbierałem się długi czas co chwilę natrafiając na wpis, który nie istnieje lub z jakiegokolwiek innego powodu powinien być usunięty.

Podejmując decyzję o porządkach chwilkę zastanawiałem się jak to sprawdzić. Doszedłem do wniosku, że sprawdzenie wszystkiego automatem nie wchodzi w rachubę. Za duży margines błędu musiałbym założyć.

Sprawdziłem więc najpierw wszystkie adresy automatem pobierając tytuł witryny oraz kod odpowiedzi serwera.

W drugim etapie podzieliłem całość na te, które zwracają 200 oraz resztę.
Niestety kolejny etap to ręczne wyłapanie z dwusetek tych adresów, których tytuł mi nie pasował.
Zwracałem także uwagę na brak tytułów oraz tytuły o zawartości domeny i wszelkie hostingi, under construction itp tid.

Po usunięciu tych adresów, do których nie miałem zastrzeżeń resztę odwiedziłem, usuwając z listy te witryny, który były OK.

Pozostawiałem na liście do usunięcie wszelkie zaparkowane strony, witryny do sprzedaży, bezsensowne przekierowania oraz witające mnie witryny firmy hostingowej zamiast danej witryny.
Około 70-80% usuniętych w ten sposób witryn to witryny zaparkowane, wyświetlające reklamy.

Drugim torem sprawdzałem witryny, których serwery zwróciły inną odpowiedź niż 200. Założyłem, że sprawdzę odpowiedzi dwa razy.
Listę z pierwszego katalogu sprawdziłem po 5 dniach, w przypadku drugiego katalogu trwało to trochę dłużej bo prawie 3 tygodnie.

Po pierwszym katalogu wiedziałem, które witryny z innymi odpowiedziami niż 200 trzeba sprawdzić ręcznie a które można po prostu usunąć.

Jak widać starałem się zrobić założoną pracę dokładnie.

Oto efekty

1. Pierwszy katalog
Rozpoczynając sprawdzanie katalog miał 13184 wpisów (8121 domen)
– 7 sprawdzonych witryn miało wirusy
– kod 200 (działające) sprawdziłem ręcznie 339 witryn, usunąłem z tego 256 szt.
– kod 12007 – usunięte 275 szt.
– kod 404 – usunięte 56 szt. (3/4 adresów to były podstrony)
– kod 403 – usunięte 22szt. (usuwałem jeśli taki był cache Google)
– w innych błędach nie zapisywałem ilości bo przeważnie było po parę sztuk.
Po skończeniu w katalogu zostało 12165 wpisów, 32 podkategorie zostały usunięte ze względu na brak wpisów.

Jedna domena może być dodana kilka razy, za każdym razem jest to inny wpis (taka konstrukcja katalogu). Na liście do sprawdzenia duplikaty domen zostały usunięte.
Na starcie 13184 wpisy równało się 8121 domenom, osunąłem jakieś 650 adresów czyli około 8%.

2. Drugi katalog
Rozpoczynając sprawdzanie w katalogu było 6376 domen (nie wpisów).
– 9 sprawdzonych witryn miało wirusy
– kod 200 (działające) sprawdziłem ręcznie 435 witryn, usunąłem z tego 374 szt.
– kod 12007 – usunięte 195 szt.
– kod 404 – usunięte 23 szt. (100% to podstrony)
– kod 403 – usunięte 15szt. (usuwałem jeśli taki był cache Google)
– inne błędy – usunięte 16szt.
Po porządkach usunąłem 51 pustych podkategorii.
Jak łatwo policzyć w tym katalogu usunąłem 631 domen co daje prawie 10%.

Z obydwóch katalogów pozyskałem ponad 400 adresów, które prawdopodobnie nie istnieją. Nie sprawdzałem jeszcze jaki jest stosunek domen do subdomen, myślę jednak, że parę adresów do kupienia na pewno się znajdzie.

Jeśli ktoś dba o swoje katalogi to mimo moderacji co jakiś czas warto wymieść kurze z kątów.
10% usuniętych urli to moim zdaniem dużo, zastanawiam się ile tych procentów byłoby w przypadku katalogów bez moderacji.

Szkoda tylko, że ostatnio Google jest niełaskawy dla katalogów nie zależnie czy ktoś o nie dba czy też nie.