Co musisz wiedzieć o wyszukiwarkach
2007-09-27 13:22
© fot. mat. prasowe
Przeczytaj także: Google nie chce słowa "google"
Rzecz pierwsza - JAKWyszukiwarka składa się z trzech podstawowych elementów: szperacza, indeksu oraz przetwarzającego zapytania systemu wykonawczego (interfejsu) i związanego z nim programu, który łączy zapytania z indeksem. System wykonawczy zarządza również bardzo ważnymi kwestiami trafności i rankingu. Wszystkie trzy elementy są nierozerwalnie związane z jakością i szybkością działania wyszukiwarki, a w każdym z nich można wyróżnić setki czynników mających wpływ na całościowy proces wyszukiwania.
Wyszukiwanie zawsze zaczyna się od użytkownika: jego zapytania i jego intencji - chęci uzyskania odpowiedzi, znalezienia strony czy też dowiedzenia się czegoś nowego. Intencje są motorem wyszukiwania. W przeciętnym wyszukiwaniu do pola wpisujemy jedno lub dwa krótkie słowa, a z wyświetlanych milionów wyników sprawdzamy kliknięciem średnio jeden lub dwa. Oczywiście są to tylko średnie. Niewielki procent osób zawodowo skazanych na surfowanie (na przykład dziennikarze) wykonuje bowiem setki wyszukiwań dziennie, a niektórzy tylko kilka miesięcznie.
Proces wyszukiwania rozpoczyna się od szperacza. Szperacz (ang. crawler) to specjalistyczny program przeskakujący w sieci www z odsyłacza na odsyłacz, zbierający informacje o znalezionych stronach i odsyłający je do zindeksowania. Szperacze można sobie wyobrazić jako malutkie roboty przemierzające rozległą cyberprzestrzeń, ale prawda jest mniej czarująca. Szperacze są domatorami siedzącymi w swoich serwerach i wysyłającymi bardzo wiele żądań do znajdujących się w Internecie stron, podobnie jak czyni to przeglądarka.
W wyniku tych żądań pojawiają się informacje o stronach WWW, które szperacz przekazuje indeksatorowi. Odnotowuje jednocześnie wszystkie znalezione na stronie odsyłacze (linki), umieszczając je w kolejce w pliku z żądaniami. Następnie wysyła kolejne żądania do tych odsyłaczy, znajduje dalsze odsyłacze, i tak dalej w nieskończoność Im więcej stron szperacze odwiedzają i im częściej to czynią, tym kompletniejszy jest indeks. A im kompletniejszy indeks, tym trafniejsze są wyniki wyświetlane po wysłaniu zapytania.
Pierwsze wersje szperaczy wykrywały i indeksowały tylko tytuły stron www, ale dzisiejsze, bardziej zaawansowane wersje, indeksują zawartość całej strony www, a także różne typy plików jak np. Adobe Acrobat (PDF), dokumenty Microsoft Office, pliki dźwiękowe i wideo, a nawet meta dane czyli przygotowywane przez webmasterów strukturalne informacje o indeksowanych stronach i ich zawartości.
Szperacz odsyła znalezione przez siebie informacje do gigantycznej bazy danych zwanej indeksem. Indeks dzieli się na kilka części, zależnie od tego czy dane zostały przetworzone i uzdatnione do udostępnienia zwykłym użytkownikom. Surowe indeksy mają postać list uporządkowanych na podstawie domeny: w indeksie znajduje się lista słów znalezionych na określonej stronie, a także istotne informacje o niej np. słowa na stronie, odsyłacze, tekst kotwicy (tekst wokół i w obrębie odsyłacza) itd. Informacje są zorganizowane w ten sposób, że znając adres URL można znaleźć związane z nim słowa.
Dlaczego ma to znaczenie? Ponieważ kolejny etap tworzenia inteligentnego indeksu polega na odwróceniu bazy danych czyli zbudowaniu listy słów, które są następnie kojarzone z adresami URL. Dlatego też gdy wpiszemy do wyszukiwarki "Mongolia zewnętrzna", wyszukiwarka może natychmiast wyłuskać listę adresów URL, wszystkich stron, na których słowa te się znajdują.
Czy SearchGPT może zagrozić Google?
oprac. : Wydawnictwo Naukowe PWN
Przeczytaj także
Najnowsze w dziale Wiadomości
-
Cyfryzacja mikrofirm w Polsce. Dlaczego tylko co 3. korzysta z AI, CRM i e-fakturowania?
-
Polska magnesem dla inwestycji z Niemiec. Nowy raport o biznesie w CEE
-
Oszuści atakują w sezonie PIT. Jak rozpoznać fałszywe wiadomości o zwrocie podatku i nie paść ofiarą phishingu?
-
Czy AI i cyfryzacja uratują wzrost gospodarczy i produktywność pracy?





Ceny mieszkań stabilne a zdolność kredytowa rośnie. O ile nie masz dzieci
