Indeks

Indeks – (także indeksowanie stron internetowych, indeks Google) baza danych wyszukiwarki internetowej, zawierająca najważniejsze informacje dotyczące stron, zebrane przez roboty. Indeksowanie stron internetowych to proces, którego efektem jest wpisanie do indeksu Google.

Ostatnia aktualizacja: 08-10-2024
Spis treści

Zacznijmy od tego, że podstawowe (pierwsze) znaczenie indeksu jest nam wszystkim znane (wg sjp.pwn.pl): alfabetyczny spis pojęć, terminów, nazwisk itp. przytoczonych w danej książce. Ta podstawowa definicja jest całkiem dobrą podstawą dla indeksu Google. Tu również mamy do czynienia z bazą danych, która zamiast pojęć/terminów/nazwisk przechowuje kluczowe informacje o stronach internetowych: treści, frazy kluczowe, grafiki i linkowanie. Stronach, które wcześniej odwiedziły, przenalizowały i zindeksowały roboty Google. Celem indeksu wyszukiwarki jest przedstawienie użytkownikowi jak najszybciej najlepszych wyników wyszukiwania.

 

Gdzie się znajduje indeks wyszukiwarki?

Jak już wspomnieliśmy, celem przechowywania indeksu stron internetowych przez np. Google jest optymalizacja procesu wyszukiwania. Bez indeksacji po każdym zapytaniu wyszukiwarka musiałaby skanować korpus każdego dokumentu – dla 10 000 dokumentów mogłoby to zająć godziny, przeszukanie tej samej zaindeksowanej zawartości zajmuje tylko milisekundy. Gdzie fizycznie przechowywane są indeksy? Tymi miejscami są centra danych, tzw. Google Data Centers, zlokalizowane na całym świecie (Ameryki Północna i Południowa, Europa i Azja). Obecnie to ponad 30 takich miejsc (ok. ośmiu jest w fazie uruchamiania). Europejskie centra zlokalizowane są w północnej części kontynentu – także ze względu na ułatwione chłodzenie serwerów (np. Dania, Norwegia i Finlandia). Opisywane centra działają nieprzerwanie w trybie 24–godzinnym. Jak zatem trafić tam ze swoją stroną?

 

Jak przebiega proces indeksacji?

Nasza strona po opublikowaniu nie znajduje się automatycznie w opisywanych powyżej centrach danych. Wcześniej musi zostać zaindeksowana. Jak przebiega taki proces? Składa się on z trzech etapów.

Wykrycie

Pierwszym etapem indeksacji jest wykrycie, czyli moment, w którym Google zauważa naszą stronę. Jak sprawić, by proces ten nastąpił jak najszybciej?

  • Sitemap.xml. Zgłoszenie w Google Search Console (GSC) nowej mapy witryny.
  • Prośba o indeksację. Bardzo szybki sposób na zgłoszenie strony, wystarczy w GSC, po wklejeniu pełnego adresu witryny, wybrać opcję „poproś o zindeksowanie”.
  • Indexing API. Za pomocą tego interfejsu można: zaktualizować i usunąć URL, uzyskać stan żądania (weryfikacja, kiedy Google odebrało powiadomienia dotyczące konkretnego adresu), wysyłać zbiorcze prośby o indeksowanie. Google zaleca korzystanie z Indexing API zamiast sitemap.xml, przedstawiając to jako najszybsze rozwiązanie. Nadal jednak sugeruje przesyłanie mapy witryny w przypadku informowania o zawartości wszystkich podstron witryny.
  • Linkowanie wewnętrzne i zewnętrzne. Te pierwsze informują m.in. roboty Google, że dostępne są dodatkowe treści. Linki zewnętrze z kolei jasno wskazują drogę robotom.

Skanowanie (crawling)

O tym, ile adresów URL może zostać przeskanowanych przez roboty Google zależy przyjazność naszej strony, która określa tzw. crawl budget. Ów „budżet” określa czas i moc obliczeniową poświęconą naszej stronie przez roboty. Kluczowymi elementami są tu parametry hosta (robots.txt, DNS, błędy 500) oraz TTFB, czyli Time To First Byte – czasu potrzebnego na odpowiedź, jaka musi upłynąć z serwera do witryny.

Indeksowanie

Pozytywnie ocenione strony trafiają do opisanych wcześniej baz danych Google, stając się dostępne dla wyszukujących (tutaj powraca oczywiście kwestia SEO). Strony niezaindeksowane są widoczne dla użytkowników tylko z poziomu wpisania adresu w wyszukiwarce lub poprzez kliknięcie bezpośrednio w link. W jaki sposób sprawdzić czy nasza strona się zaindeksowała? Można użyć dwóch komend w pasku adresu przeglądarki: site: (np.: site:semhouse.com/pl) i cache: (np. cache:semhouse.com/pl). Można też sprawdzić adres URL w GSC, wybierając opcję „sprawdzenie adresu URL”. Przyczyny niezaindeksowania naszej strony mogą być wielorakie: atrybut „noindex”, zablokowany plik robots.txt, nadmierna liczba przekierowań 301 oraz oczywiście błędy 404 i 500, tag „canonical” prowadzący „donikąd” i orphan pages. Jeśli spełniliśmy wszystkie warunki, nie należy martwić się na zapas. Indeksowanie zwykle trwa: od kilku do kilkunastu dni (chyba że dotyczy to Google News, wówczas indeksowanie przebiega błyskawicznie).

 

Indeks(owanie) – najczęściej zadawane pytania

Co to jest indeksowanie?

Indeksowanie jest kluczowe, jeśli chodzi o widoczność strony w internecie. To zbieranie przez roboty np. Google informacji związanych ze stroną internetową: treści, słów i fraz kluczowych, obrazów, linków wewnętrznych i zewnętrznych. Wszystkie one są następnie przechowywane w bazie danych (np. Google Data Centers), aby przyspieszyć ów proces. Oznacza to, że w trakcie przeszukiwania internetu za pomocą Google, przeszukujemy faktycznie lokalną bazę danych wyszukiwarki, a nie sieć jako taką.

Jak najszybciej zaindeksować stronę internetową?

Google jako najszybszy sposób indeksowania strony internetowej zaleca używanie interfejsu Indexing API. Wciąż jednak poleca przesyłanie mapy witryny (sitemap.xml) w przypadku informowania robotów o zawartości wszystkich podstron.

Autorzy
  • Content SEO Specialist. Absolwent filologii polskiej na Uniwersytecie Śląskim w Katowicach. Doświadczony redaktor i nauczyciel. Laureat X edycji Konkursu im. Krzysztofa Mętraka dla młodych krytyków filmowych. Publikował w pismach ogólnopolskich. Zgodnie ze swoim nazwiskiem lubi książki, zgodnie z imieniem – powieści (der Roman). Uwielbia łąki i uważa koty za wyższą formę istnienia.

Wymieńmy się doświadczeniami
Opowiedz nam o potrzebach twojej firmy, a my z pasją zajmiemy się ich wdrożeniem.

Bartosz Kastelik
Global Chief Sales Officer

Jesteśmy częścią grupy