Kradzież treści a SEO

Napisane 30 czerwiec, 2017 7

Zjawisko kopiowania treści z innych stron internetowych znamy nie od dziś. Istnieje duża szansa, że zanim sieć WWW przekroczyła 100 stron to już ktoś coś kopiował od kogoś :) I głównie czynnik ludzki – ktoś wziął to co zrobiłem – i ekonomiczny – zapłaciłem, poświeciłem czas – był powodem wzburzenia w takiej sytuacji.

A później pojawiło się SEO..

Przez wiele lat niewielu obchodziło to, że treść jest powielona aż do pojawienia się …. Caffeine.

Wiem, że teraz gdy myśli się o tego typu problemach z treścią, myśli się o Pandzie ale to właśnie algorytm Caffeine wprowadził znacznie zmiany w postrzeganiu kwestii powieleń treści. A później wdrożyli Pandę, która dodała swoje 1500 groszy.

Od kradzieży przeszedłem do powielenia ale nie będę się tutaj rozwodził nad samymi powielenia zwłaszcza wewnętrznymi.

Skoncentruję się nad tym co, można powiedzieć od nas nie zależy. A opiszę tylko przypadki, które dotknęły witryny, którymi się opiekujemy.

By było mi łatwiej wspomnę tylko kilka ostatnich miesięcy :)

1. Ręczna kradzież treści

Ręczne kradzieże treści to po prostu skopiowanie części lub całości treści z danej podstrony lub grupy podstron.

Zaczynam współpracę np z Kliniką medyczną – sprawdzamy im treść. Znajdujemy skopiowane opisy usług, zabiegów, nawet raz znalazłem skopiowany życiorys. Tak samo z Zakładem Kosmetyczką czy Elektrykiem itd. Czego dotyczy treść nie gra roli.

Komuś się nie chce lub nie umie i bierze treść z innej strony do siebie.

Przeciwdziałanie

Niestety w 100 procentach nie da się niestety tego zrobić. Pewnym rozwiązaniem jest wdrożenie mechanizmu uniemożliwiającego łatwe kopiowanie – blokowanie możliwości zaznaczenia treści, prawego przycisku myszy itd.

Można to zrobić odpowiednim skryptem, wtyczką.

Pamiętajmy, że tak proste ograniczenie można obejść bez problemu. Ale na pewien procent przypadków zadziała. Najwyżej ktoś będzie ręcznie przepisywać :)

Zalecenie

Należy wyrywkowo sprawdzać treści na swojej witrynie. Najprościej poprzez szukanie ich w Google.

„Szukane zdania powinny być w cudzysłowach tak jak to zdanie.”

Warto pamiętać o tym by nie sprawdzać tylko jednego zdania lub treści, które mogą się pojawiać na innych stronach np treści ostrzeżenia o ciasteczkach.

Niestety mleko się już rozlało, więc najczęściej trzeba będzie taką treść napisać jeszcze raz. Chyba, że spowodujemy usunięcie kopii lub wstawienie canonicala.

2. Automatyczna kradzież treści

Wiele witryn budowanych jest na treściach pobranych automatycznie. Zbudowanie crawlera nie jest trudne, dostępne są nawet takie narzędzia.
Tutaj warto rozróżnić dwa przypadki – pobranie tylko treści, pobranie całego kodu.

Przeciwdziałanie

Nie ma lepszego mechanizmu na przeciwdziałanie tego typu kradzieżom jak odpowiednie ustawienie serwera, który będzie blokował dużą liczbę wywołań.

Można to także zrobić w oprogramowaniu. Tzn oprogramowanie witryny może to także kontrolować ale nie wszystkie skrypty mają takie funkcje. Np w WordPress są wtyczki, które powinny temu przeciwdziałać.

Znane programy pobierające treści możemy także zablokować w htaccess po UserAgent np
#blokowanie SetEnvIfNoCase User-Agent "MetaURI" bad_bot SetEnvIfNoCase User-Agent "mediawords" bad_bot SetEnvIfNoCase User-Agent "FlipboardProxy" bad_bot

Order Allow,Deny Allow from all Deny from env=bad_bot

Zalecenie

Pamiętajmy o tagu canonical wskazującym adres oryginału danej treści na podstronie, na której się znajduje. W momencie gdy zostanie pobrany cały kod istnieje możliwość, że będzie ona także wstawiony na nową stronę.

W tym przypadku najczęściej nie będziemy mieli żadnej możliwości wpłynięcia na kopiującą witrynę, więc warto zapobiegać. Należy jednak dodać, że tego typu akcje zdarzają się znacznie rzadziej niż kradzież ręczna.

3. Kradzież przez RSS

Wydawałoby się, że czasy witryn takich jak agregatory się skończyły ale pobieranie udostępnionych treści w RSS dalej się zdarza. Wykorzystywane są one później w całości lub części.

Przeciwdziałanie

By zminimalizować ryzyko wystąpienia problemów przez kradzież via RSS wystarczy ograniczyć ilość treści publikowanych w kanałach.

Np w WordPress jednym z pierwszych kroków powinno być zaznaczenie „wypisy” przy opcji „W kanałach nowości wyświetlaj” na Ustawieniach czytania. Polecam też zmniejszyć ilość udostępnianych postów.

Jak nie ma takiej opcji to należy ograniczyć ilość treści poprzez odpowiednią funkcje w oprogramowaniu.

Zalecenie

W tym przypadku canonical nam nie pomoże bo RSS nie przekaże tej deklaracji. Warto jednak pamiętać o tym by linki, jeśli znajdują się w udostępnianie treści były pełne (bezwzględne). Tak powinno być zawsze ale lepiej to sprawdzić. Jeśli treść będzie użyta w 1 do 1 to mamy przynajmniej darmowy link :).

4. Proxy typu content scrapers

Większość witryn typu „proxy” nie indeksuje zasobów. Czasami jednak jest inaczej, ktoś próbuje zbudować sobie treść kosztem treści z innych witryn.

Trochę tej sytuacji nie rozumiem bo najczęściej się to nie udaje ale skutecznie potrafi popsuć pozycje. Apogeum tego typu kradzieży już minęło ale sporadycznie się to dalej zdarza.

Przeciwdziałanie

Taką sytuację można wykryć dopiero po fakcie. Często treści pobierane są na bieżąco. Jeśli znajdziecie taką witrynę to należy zablokować u siebie IP serwera pobierającego. Można to wykryć analizując logi wejść.

Zalecenie

Tag canonical na część tego typu stron będzie pomocnym rozwiązaniem. Canonical wskazujący „na siebie” – warto więc go wdrożyć.

Zanim zmienimy treść, jeśli się na to zdecydujemy, zablokujmy serwer by się nie zaktualizowała.

5. Kradzież całej strony

Takie sytuacje zdarzają się bardzo rzadko. Z drugiej strony u nas w ciągu ostatnich miesięcy mieliśmy dwa takie przypadki.

Pod inną domeną odkryliśmy taką sama zawartość ze zmienionym logiem i danymi kontaktowymi.

W obydwu przypadkach się, że były wspólnik po prostu ułatwiał sobie start w internecie.

Zalecenie

W tym przypadku najlepiej zmienić zawartość witryny. Niezależnie od tego jak potoczą się rozmowy z osobą kopiującą to zmiana treści „u siebie” będzie najczęściej najszybszym rozwiązaniem.

Warto przeanalizować sytuację witryny przed indeksacją kopii i odpowiednio pokierować teściami by nie stracić wypracowanej widoczności lub nawet ją poprawić.

6. Porównywarki

Tak naprawdę to właśnie ten, ostatni punkt był inspiracją do tego wpisu.

Treści i porównywarki to kwestia dotycząca tylko sklepów ale kwestia bardzo istotna bo ufność i brak przeciwdziałania może powodować problemy z pozycjami.

Opiekujemy się sklepem, który korzysta z usług Ceneo. Sukcesywnie wymieniamy mu wszystkie treści poza opisami produktów. Okazało się jednak, że część fraz będziemy budować na podstrony produktów co oznacza dla nas automatycznie zaopiekowanie się treścią – opisami.

Przy jej badaniu odkrywamy powielenia, piszemy wiec nową treść.

Nie możemy wyłączyć produktu z porównywarek bo ma znaczną sprzedaż w tym kanale. Po krótkim namyśle stwierdzam, że pewnie Ceneo ma już wszystkie opisy świata więc nie weźmie naszego.

Nasz opis – nowe 3 tysiące znaków trafia na witrynę 12.06. O 23.55 tego samego dnia generowany jest plik xml. 19.06 przy standardowej kontroli znajdujemy naszą treść na tej porównywarce i 4 innych stronach. Są to strony rankingowe czyli powiązane z porównywarką…
Co ciekawe widać ingerencję ludzką, treść jest inaczej sformatowana – gratulujemy i prawie cieszymy się, że się spodobała.

Przeciwdziałanie

Temat dotyczy wszystkich porównywarek. Jeśli dbamy o treści a mamy taką możliwość to warto tworzyć różne treści na sklep i dla porównywarek.

Jeśli nie mamy tej możliwości to najprostszym rozwiązaniem jest nie przekazywanie całego opisu. Tutaj też musimy zrobić to najczęściej poprzez programistę ale będzie to skuteczne. Ksracamy opis do np 100 znaków i mamy tylko powielenie częściowe.

Niestety nie zrobimy tego na oprogramowaniu w chmurze/abonamentowych.

Zalecenie

Warto nie udostępniać produktów, na których nam nie zależy. Czasami widzę, że udostępniana jest całą oferta a sprzedaż generowana jest przez małą liczbę produktów.
Jak napisałem powyżej, dbajmy o treści.

W regulaminie porównywarek są zapisy, że to co im przekażemy może być użyte do prezentacji danego sklepu.

W naszym przypadku polemizowałbym, czy użycie opisu z jednego sklepu na ofercie produktu dostępnego w kilku sklepach to „użycie do prezentacji” sklepu skąd treść pochodzi.
A jak sklepów jest 50 to ….

Pomyślmy o tym zanim wygenerujmy xml bo może się zdarzyć, że później trzeba będzie treści tworzyć od nowa.

Podsumowanie

Bawiąc się w archeologa zapraszam do zapoznania się z moim wpisem z 2012 roku – Kradzież pozycji w Google. Takie sytuacje spokojnie mogą zdarzyć się i teraz.

Warto dodać, że jeśli posiadamy dowód, że treść jest nasza to można zwrócić się do Google w związku z DMCA. Może się uda :)

A Ty jak zabezpieczasz się przed kradzieżą treści ?

7 komentarzy

Autor Zgred dodany 1 lipiec, 2017

Google juz dobrze radzi sobie z content scraperami i potrafi wyzerowac ich negatywne działanie. Wiec tym bym sie specjalnie nie przejmował.

Z porównywarkami – najlepiej w bazie zrobić dwa pola na descrpition – jeden będzie Twój a drugi wysyłany w XML do porównywarki. Titlesy mogą byc te same :)
Autor mkane dodany 1 lipiec, 2017

Tak wiem, że radzi sobie w miarę dobrze ale nie zawsze niestety. Co do porównywarek mam podobne zdanie.
Autor Mariusz Kołacz dodany 2 lipiec, 2017

DMCA nie zawsze działa nawet jeśli ma się dowód.

Ja osobiście nie zalecam blokowania kopiowania treści, bardzo pogarsza to UX, a w dodatku w niektórych case’ach mogło mieć wpływ na otrzymanie kary ręcznej, a i tak jak ktoś będzie chciał to skopiuje zawartość strony ale w inny sposób.
Autor Łukasz dodany 3 lipiec, 2017

Miałem też kilku klientów ze skopiowanymi treściami. O dziwo większość z nich uznała, że najszybszym rozwiązaniem jest wysłanie uprzejmego listu poleconego sygnowanego przez adwokata. Często oszczędzało to zasoby w agencji, na produkcję nowych treści.
Autor mkane dodany 3 lipiec, 2017

Też tak robimy ale przy większych klientach.
Autor zyczeniowo dodany 4 lipiec, 2017

Z tym radzeniem sobie Google nie jest wcale tak kolorowo, jeszcze niedawno była przecież spora afera związana z tym, że kopie przebijały strony, z których były pobrane treści
Autor Mateusz dodany 9 lipiec, 2017

Nadal są sytuację tego typu że jest spadek pozycji i wychodzi po głębszym grzebaniu, że ktoś gdzies coś skopiował ze strony klienta ;-)