Zastosowanie, czyli dlaczego boty mają pełno roboty od soboty do soboty?
Najpopularniejszym zastosowaniem botów jest przeszukiwanie sieci: zautomatyzowany skrypt pobiera, analizuje i gromadzi informacje z serwerów internetowych. Szacuje się, że ponad połowa całego ruchu internetowego generowana jest przez boty. Działanie botów jest różne i z danej perspektywy (miejsca, w którym działa) pozytywne lub negatywne. Teoretycznie można ograniczyć obecność botów na naszym serwerze poprzez stworzenie pliku Robots.txt – składającego się z poleceń dla botów, które wskazują podstrony i pliki dostępne do skanowania w trakcie procesu indeksowania. Dyrektywy przesyłane są poprzez standard Robots Exclusion Protocol (niektóre wyszukiwarki uwzględniają niestandardowe zapisy). Mimo że w praktyce zapisy pliku Robots.txt nie zawsze są respektowane, lepiej mieć nad nimi (botami) choć minimalną kontrolę. Co nam to daje?
- Bezpieczeństwo – ograniczasz dostęp do istotnych dla Ciebie sekcji.
- Zabezpieczenie przed tzw. duplicate content – informacja dla wyszukiwarek: nie muszą śledzić części witryny, która zawiera powieloną treść.
- Oszczędność transferu – dotyczy to np. plików zawierający grafiki/zdjęcia w wysokiej rozdzielczości.
- Zabezpieczenie przed wypłynięciem treści na zewnętrz – w przypadku banków zdjęć kwestia podana powyżej to nie tylko optymalizacja, ale i ochrona własności intelektualnej.
- Zoptymalizowany crawl budget – kierowanie botów na ścieżki najistotniejsze z punktu widzenia SEO.
Rodzaje botów internetowych
Boty będąc programami komputerowymi, dzielą się na poszczególne rodzaje:
- indeksujące, zbierające informacje nt. stron internetowych,
- skrapujące, odczytujące dane ze stron do późniejszej analizy,
- spamujące, zbierające adresy elektroniczne do wysyłania spamu,
- społecznościowe, tworzące wiadomości w mediach społecznościowych (najpopularniejsze w X, czyli w dawnym Twitterze),
- pobierające pliki, mogą być wykorzystywane do ataków typu DDoS (ang. distributed denial of service, rozproszonej odmowy usługi), uniemożliwiających działanie usługi poprzez zajęcie wszystkich wolnych zasobów,
- wykonujące automatyczne zakupy (np. bilety koncertowe do późniejszej odsprzedaży),
- rozprzestrzeniające wirusy (kradzież danych lub zainfekowanie hosta złośliwym oprogramowaniem),
- głosowe, przeprowadzające rozmowy z ludźmi (popularne infolinie),
- chatboty, służące do komunikacji w zastępstwie człowieka.
Najpowszechniejszym sposobem zabezpieczenia przed botami jest popularne potwierdzenie faktu bycia człowiekiem, czyli CAPTCHA (nie zawsze skuteczne ze względu na rozpoznawanie znaków w CAPTCHA, luki w zabezpieczeniu lub obchodzenie CAPTCHA dzięki wynajmowanym zespołom ludzi).
Przez wiele lat wyznacznikiem oddzielenia (ro)bota i człowieka była zdolność przejścia testu Touringa, którego istotą było to, czy uczestnicy testu są lub nie są w stanie uznać swojego rozmówcę za człowieka. To granica została przekroczona w 2011 roku: ludzie rozmawiający z programem Cleverbot – stworzonym przez weterana sztucznej inteligencji, Rollo Carpentera – byli przekonani, że prowadzą konwersację z człowiekiem. Jeśli uznajesz ten tekst za napisany przez człowieka, masz rację!
Bot – najczęściej zadawane pytania
Co to znaczy bot?
Program komputerowy wykonujący zautomatyzowane (proste, skoordynowane i powtarzalne) zadania w sieci, zwykle imitując zachowania człowieka i wykonując je szybciej niż człowiek.
Czym się różni bot od robota?
Bot to skrót od słowa robot i oznacza program, który może przeprowadzać proste działania w sieci np. na masową skalę.