26 lutego 2024

Jak sprawdzić, czy strona działa i prawidłowo się indeksuje?

Twoja strona nie wyświetla się w wynikach wyszukiwania? Zauważasz, że nagle traci pozycje? Może to wskazywać na problemy z indeksacją. W artykule przedstawiamy 8 sposobów na to, jak sprawdzić, czy strona prawidłowo się indeksuje i jak zadbać, by była widoczna zarówno dla użytkowników, jak i robotów.

Kiedy powinieneś podejrzewać, że ze stroną mogą być problemy?

Oto kilka przykładowych sytuacji, które powinny zasugerować Ci, że ze stroną dzieje się coś niedobrego:

  • strona traci pozycje,
  • strona nie działa w przeglądarce,
  • strona działa w przeglądarce, ale roboty (np. Uptime Robot) wskazują, że jest dla nich niedostępna.

Oczywiście to tylko najczęstsze przykłady, takich sytuacji może być znacznie więcej. Niektóre z nich czasem bywają trudne do zdiagnozowania, natomiast inne widać na pierwszy rzut oka.

Jak zbadać problem z indeksacją?

Oto lista przydatnych narzędzi, którymi można się posługiwać, by sprawdzić, czy strona jest zaindeksowana. Wskazujemy także miejsca w kodzie, które należy zbadać.

Komenda site

Gdy wpiszesz w wyszukiwarkę Google komendę “site:nazwastrony.pl”, to wyświetlą Ci się wszystkie zaindeksowane podstrony. Strona główna z reguły jest na pierwszym miejscu w wynikach. Jeśli jej nie widzisz, to znaczy, że strona może mieć problemy. To właśnie strona główna zwykle jako pierwsza “obrywa”, gdy witryna ma problemy techniczne.

Cache strony

Stronę można również sprawdzić w cache Google, wpisując w pasku przeglądarki “cache:nazwastrony.pl”. Jeśli strony nie ma w cache’u to również jest sygnał, że robot może mieć problem z jej indeksacją.

Uptime Robot

Uptime Robot to przydatne narzędzie, które informuje Cię, jeśli strona przestaje działać.

Uptime robot

Czerwony kolor na wykresie oznacza, że strona w tym czasie nie działała. Powinno to zaniepokoić i skłonić do dokładniejszego zbadania sprawy

Uptime robot tabela ze statusami

Pod wykresem widać tabelę, w której są wskazane daty i czas, gdy strona była niedostępna.

Warto jednak mieć na uwadzę, że niektórzy blokują robota z tego narzędzia. Wtedy strona będzie się w nim pokazywać jako niedziałająca, mimo że tak nie jest. Uptime Robot po prostu nie będzie miał do niej dostępu. Robot Uptime może być zablokowany np. w pliku robots.txt

Google Search Console (GSC)

Jeśli masz dostęp do Google Search Console, to w tym miejscu możesz znaleźć wiele cennych informacji, m.in. sprawdzić, czy strona zwraca jakieś błędy.

Możesz również wkleić w pasku u góry adres strony i zobaczyć, czy jest dostępna opcja, by zgłosić ten adres do indeksacji. Jeśli robot ma problem z dostaniem się na stronę, to zwróci błąd w momencie, gdy będziesz chciał zaindeksować stronę.

Pasek wyszukiwanie Google Search Console

Jeśli ze stroną nie ma żadnych problemów, to zobaczysz taki widok:

Strona zaindeksowana w Google Search Console

Znajdziesz na nim kolejno:

  1. Informację, że strona jest zaindeksowana.
  2. Możliwość zgłoszenia strony do ponownej indeksacji (przydatne, gdy np. na stronie wprowadzone zostały jakieś zmiany i chcesz, żeby robot je odnotował).
  3. Informację o stanie witryny i ewentualnych błędach. W zaprezentowanym widoku mamy informację, że nie występują żadne błędy.
  4. Dodatkowe ulepszenia zastosowane na stronie i ich stan.

Robots.txt

W pliku robots.txt można blokować wszystkie lub konkretne roboty crawlujące. Plik ten można znaleźć, gdy do adresu strony dodasz “/robots.txt” np. https://seo4.net/robots.txt.

Jeśli wyświetli Ci się strona 404, to oznacza, że plik nie istnieje. Jeśli plik nie istnieje, to każdy z robotów powinien mieć dostęp do strony.

Jeśli wyświetli Ci się “pusta” strona, oznacza to, że plik istnieje, ale nie ma w nim żadnych reguł. W tym wypadku roboty również nie powinny być blokowane i powinny mieć dostęp do danej strony.

Jeśli widzisz treść, to znaczy, że plik istnieje i są w nim jakieś reguły. Należy przeanalizować jego treść i sprawdzić, czy nie zostało zablokowane coś, co powinno być widoczne dla robotów.

Przykładowy plik robots.txt dla stron opartych o CMS WordPress wygląda następująco:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php.

W pliku tym widać, że dodano dyrektywny dla każdego robota odwiedzającego stronę, w których zablokowano dostęp do adresów /wp-admin/, natomiast zezwolono robotom na odwiedzenie adresu /wp-admin/admin-ajax.php.

Narzędzie httpstatus.io

To narzędzie pozwala sprawdzać przekierowania na stronie, znajdziesz je pod adresem https://httpstatus.io/.

Gdy zbadasz adres strony, to otrzymasz informację, jaki jest jej status code oraz czy są ustawione przekierowania.

Dla przypomnienia – lista najczęściej spotykanych status code:

  • 200 – strona działa
  • 404 – strony nie znaleziono
  • 301 – permanentne przekierowanie (strona na stałe zmieniła swój adres)
  • 307 – przekierowanie tymczasowe (strona przez jakiś czas działa pod innym adresem)
  • 500 – błąd serwera.

Możesz również sprawdzić, czy strona prawidłowo kieruje na jeden docelowy adres (opcja “Canonical domain check”). W tym narzędziu możesz testować stronę za pomocą różnych agentów np. Google Chrome, Mozilla Firefox itp.

Narzędzie httpstatus.io

Źródło strony

W źródle można sprawdzić, czy na stronie nie jest ustawiony tag “noindex”. Źródło można wyświetlić klikając prawym przyciskiem myszy na stronie i wybierając “Pokaż źródło strony” lub użyć skrótu Ctrl+U. W wyświetlonym źródle należy wyszukać słowa “noindex”.

Strona powinna mieć zapis:

meta name=”robots” content=”index,follow”

Brak tego tagu jest równoznaczny z tym, że stronę można indeksować.

Jeśli widzisz, taki zapis:

meta name=”robots” content=”noindex,follow”

to wiedz że strona jest zablokowana przed indeksacją i nie pojawi się w wynikach wyszukiwania. Oczywiście w niektórych przypadkach zastosowanie tagu “noindex” jest wskazane i nie jest błędem.

Warto mieć również na uwadze, że strony zablokowane za pomocą tagu “noindex” nie powinny być blokowane w robots.txt. W dokumentacji Google znajduje się taki zapis:

Ważne: aby dyrektywa noindex działała poprawnie, nie możesz blokować strony w pliku robots.txt ani w żaden inny sposób uniemożliwiać robotowi dostępu do niej. Jeśli zablokujesz stronę w pliku robots.txt lub będzie ona niedostępna dla robota, nie odnajdzie on dyrektywy noindex i możliwe, że strona będzie się w dalszym ciągu wyświetlać w wynikach wyszukiwania, np. gdy linki do niej będą występowały na innych stronach.”

Źródło: https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=pl

Plik .htacccess

Jeśli narzędzie httpstatus.io sugeruje, że strona może mieć problemy z przekierowaniami, warto zapoznać się z zawartością pliku htaccess. Możliwe, że zawiera on nieprawidłowe reguły, które mogą powodować np. pętlę przekierowań.

Jeśli strona nie jest widoczna dla robotów, możliwe że jest ustawione przekierowanie na wersję językową względem języka przeglądarki lub geolokalizacji. Roboty zwykle podają, że pochodzą z USA. W takim wypadku robot zostanie przekierowany na angielską wersję strony i nie będzie miał szans zobaczyć innej wersji językowej, co za tym idzie – nigdy jej nie zaindeksuje. Dlatego też nigdy nie zalecamy ustawiania takich przekierowań i jeśli wykryjemy, że są obecne, to należy je jak najszybciej usunąć.

Jak widać – pomocnych narzędzi i miejsc, które należy zbadać jest sporo, każde z nich daje inne cenne informacje na temat stanu Twojej witryny. To, czy strona działa poprawnie i indeksuje się należy monitorować, a ewentualne problemy poprawiać na bieżąco.

Źródło tekstu: https://seo4.net/blog/seo/jak-sprawdzic-czy-strona-dziala-i-prawidlowo-sie-indeksuje/