Paieškos sistemos

Paieškos sistemų naujienos!

Privalu sužinoti:
kaip skaityti WWW puslapius naudojantis el.paštu?
Kaip dalyvauti diskusijose?
Gausios nuorodos į pasaulio WWW svetaines ir kur rasti programas veltui
Vartiklio "shareware" sritis

"Vartiklio" Nr. 15 pirmąkart pradėtos aptarinėti paieškos sistemos. Tas tekstas buvo pagrindas straipsniukams popierinei "Vartiklio" versijai, išėjusiai prieš pat 1997-ųjų vasarą. Per tą laiką ši tema buvo įvairiais pavidalais iškildavo vėl ir vėl - nes Voratinklį vėjas blaškė ir jo gijos trūkinėjo ir kito. Pagaliau, prieš pasirodant antrajam popieriniam "Vartikliui", redaktorius nusprendė į vieną krūvą surinkti visus kur nors publikuotus straipsniukus šia tema. Jie nebuvo peržiūrėti ir yra pateikiami tokie, kokie yra - nors, laikui bėgant, kai kas jau nėra aktualu. Atsirinkite patys! Ir laukite naujų apžvalgų...

Turinys

Paieškos sistemos

Asmens paieška

Paieškos sistemų naujienos Informacijos paieška
Lycos - ne vien tik teksto paieška
Altavista - ne vien Voratinklyje
Meta-ieškai - keli iškart
Paieškos komandos
Kur manasis Valentinas? Asmenų paieška
Būk pirmuoju! Kaip apiforminti WWW svetainę
Meta direktyvos ir suasmeninta informacija
Kaip veikia WWW puslapių ieškai?
Maža gudrybė paieškai
C|NET išmislas
Infoseek - Nauji voro drabužiai
Dirbtiniai Voratinklio vorai - jų keliai
Kaip užsirišti kaklaraištį? - paskutiniai štrichai
Ar neužmigo vorai?
Pažink išskirdamas - paieškos sistemų skirtumai
Pataikyk į dešimtuką: kaip efektyviai ieškoti
Niekad neužbaigiama tema


AltaVista
Yahoo!
Lycos
HotBot
WebCrawler
InfoSeek
Excite
Planet-Search
Magelan
Metacrawler
Dogpile
"Starting Point"
Netscape Netcenter
OpenText
LinkStar (http://www.LinkStar.com - nuoroda neveiksni)
"World Wide Web Worm"

Kur esi?
http://www.bigfoot.com Looksmart
http://www.four11.com
http://www.iaf.net
http://www.switchboard.com
http://www.whowhere.com
 

Koks rangas?
Pasitikrink matomumą
Ko ieško kiti?


Pastaba: šie tekstai rašyti 1997 m. vasario mėn. popierinio "Vartiklio" Nr.1 versijai. Nuo to laiko kai kas pakito, pavyzdžiui, beveik visi gryni ieškai virto hibridais, nes įsivedė puslapių indeksus ir kategorijas bei pradėjo teikti naujas paslaugas, pvz., teikti el.pašto adresus veltui (Yahoo!) arba suteikė galimybę WWW puslapius versti į kitas kalbas (Altavista). Tačiau pagrindiniai principai išliko...

Informacijos paieška

Iš pirmo žvilgsnio atrodytų, kad "Internet" yra ištisas informacijos vandenynas, - tik semk ir naudok. Tačiau, kai prireikia labai tikslios žinutės, pakerta rankas: kaip surasti šapą putojančiame kalnų upokšnio sraute? Puslapiai atsiranda ir išnyksta, jų tūkstančiai ir milijonai. Jie buvo, yra arba dar tik bus. Jei paprašysiu, kad surastų visus puslapius apie "maistą", gausiu kelių šimtų tūkstančių sąrašą. Nurodysiu "grybai" - vėl kažkas panašaus. O man reikia "maisto su grybų padažu"!

Paieškos paslaugos "Internet" tinkle nemokamos, tačiau mano laikas brangus. Todėl aš noriu surasti, kaip efektyviai panaudoti šiuos galingus įrankius. Ar įsivaizduojate, kaip ieškotumėte reikiamo puslapio, jei jų nebūtų? Kurtumėt savą puslapių kartoteką ar aklai (tarsi neregiai įsitvėrę virvės) eitumėte per nuorodas.

Ne visų paieškos serverių galimybės yra vienodos. Visų pirma skiriasi informacinė struktūra. Gali būti indeksai ir katalogai. Indeksai yra milžiniškos duomenų bazės apie milijonus WWW puslapių. Pagal pateiktą žodį arba frazę (ir galbūt papildomas užklausos komandas) sukuriamas WWW puslapių, kuriuose yra ieškoma frazė, sąrašas. Indeksus kuria programos-"kirminai" ("crawlers"), kurios perskaito puslapius, juos peržiūri ir indeksuoja, juose suranda nuorodas į kitus WWW puslapius, kurias panaudoja tolimesnėms paieškoms.

"Web" katalogai yra WWW puslapių hipersąrašai, pagal hierarchiją suskirstyti į temas bei kategorijas: menas, sportas, kompiuteriai ir t.t. Keliaudami šiuo medžiu žemyn pasiekiame ieškomą puslapį. Katalogus dažniausiai kuria žmonės, o ne programiniai robotai. Jie aprėpia mažiau, tačiau yra geriau organizuoti.

Indeksai yra aklas kompiuterinis voratinklyje esančios informacijos perrinkimas, nors kai kurios programos atlieka sudėtingą paiešką. Kai kurios jų žodžiams, priklausomai nuo to, kur jie randami, priskiria skirtingus prioritetus - svarbesni žodžiai yra antraštėse, raktažodžių sąrašuose. Žodžio dažnis puslapyje irgi yra svarbus veiksnys. Kai kurios paieškos programos indeksuoja tik reikšminius terminus.

Katalogai kryptingesni - jie tiksliau nurodo kelią, kuriuo reikia eiti. Jaučiama tvirta juos kūrusio žmogaus ranka. Kai kurie paieškos serveriai - "AltaVista" arba "HotBot" - yra klasikiniai indeksai. Kiti - "InfoSeek" arba "WebCrawler" - hibridai. "Magelan" ir "Yahoo!" labiau katalogai, nors pirmasis ir turi 15 mln. WWW puslapių bazę. Yahoo! turi kai kurias paieškos galimybes, tačiau dažnai užklausą peradresuoja "AltaVista" paieškos sistemai.

"PC Magazine" žurnalas geriausiais išrinko "Excite", leidžiantį surūšiuoti paieškos rezultatus pagal WWW puslapį, nurodyti raktažodžių svarbą; "HotBot", derinantį milžinišką duomenų bazę su sudėtinga vartotojo sąsaja. Jai galima labai sudėtingą paieškos užklausą; ir "Yahoo!" - geriausias katalogas, turintis 14 kategorijų ir tūkstančius subkategorijų. Šio teksto autorius mėgsta ir dažnai naudoja "InfoSeek", kuria paprasta naudotis ir kuri labai tinka naujokams. Joje galima duoti užklausą (pvz, "grybai") ir, jei atsakymų kiekis per didelis, pateikti patikslinančią užklausą tik šioje aibėje (pvz., "padažas").

Tačiau kas bus, jei šioms paieškos sistemoms pasiūlysime lietuviškus žodžius? Štai čia vertinimai ir išsiskiria. Pirmoji nelygioje kovoje krinta išgirtoji "Excite". Dauguma kitų sugeba ieškoti lietuviškų raidžių, tačiau didžiosios ir mažosios raidės joms skiriasi ("AltaVista", "Yahoo!" ar "InfoSeek"). Egzaminą išlaikė tik "HotBot" bei "WebCrawler". Gal ties jomis ir turėtų apsistoti lietuvio akis? Tačiau "dar ne vakaras", - prieš tai perskaitykite dar du papildomus skyrelius.


Lycos

Viena paieškos sistema verta papildomo dėmesio. Tai - "Lycos", praeitais metais suteikusi galimybę ieškoti garso įrašų ir piešinių. Šios paieškos sistemos agentai ("kirminai") suranda puslapį ir iš jo sukuria santrauką. Jame taip pat peržiūri ir įsimena kai kuriuos specifinius laukus: autoriaus pavardę, teksto antraštę ir t.t.

Taip pat tekste bandoma išskirti svarbiausius žodžius ir jiems suteikti didesnius svorius. Paskaičiuojama, kiek kartų žodis kartojasi tekste, ir gauta reikšmė palyginama su vidutiniu šio žodžio dažniu kituose tekstuose.

Surasti piešinius ar garso įrašus nesunku. Tačiau "Lycos" įsimena ir piešinio kontekstą. Tai tekstas, kuris yra šalia piešinio. Pavyzdžiui, jei WWW puslapyje kalbama vien apie garstyčias, tai tikėtina, kad jame esantys piešiniai irgi susiję su garstyčiomis. Todėl šį puslapį "Lycos" pasiūlys tam, kuris ieškos piešinuko su garstyčiomis. Taip pat labai svarbią informaciją turi nuorodos - iš kokio puslapio ir į kokį jos rodo. Jei į mūsų aptariamą "garstyčių" puslapį yra daug nuorodų iš puslapių, kuriuose irgi užsimenama apie garstyčias, - šio puslapio piešinių pobūdis dar stipriau nusakytas.

Žinoma, tai dar ne versija, kurioje bus galima pasakyti, kad štai čia piešinukas, kuriame maža mergaitė glosto katę, tačiau jau dabar tokia galimybė labai įdomi ir naudinga.

O kaip su lietuvių kalba? "Lycos" kaip ir "HotBot" bei "WebCrawler" atpažįsta ir moka konvertuoti didžiąsias ir mažąsias lietuviškas raides.


Altavista

DEC garsiai trinktelėjo durimis su paieškos sistema "Altavista". Tai buvo pirmoji plačiai žinoma ir geriausia paieškos sistema Voratinklyje. Paskatinta šios sėkmės DEC bando įsiveržti į paieškos nestruktūrizuotuose teks tuose sistemų rinką. Jos taikinyje asmeniniai kompiuteriai bei vietiniai įmonių tinklai.

Komerciniu požiūriu nėra jokios rizikos. "Altavista" buvo pirmoji ir gerai žinoma globaliosios paieškos sistema, kuri buvo labai greita, nes veikė galingų serverių bazėje (10 lygiagrečių "Alpha" procesorių ir 6 gigabaitai operatyviosios atminties!). Naujo ji programinė įranga skirta "Windows 95" ir NT sistemoms, ir čia greičio klausimas jau labai svarbus.

Neužbaigto projekto stadijoje dar sunku ką nors konkretaus pasakyti apie būsimo kūdikio savybes, tačiau paieškos greitis niekaip negalės prilygti vyresniajam broliui. Visa kita išlieka - sąsajos su vartotoju ir duomenų baze nesikeičia.

Serveriams iškyla kitos problemos. Visų tekstų indeksavimas užima be galo daug laiko, o tai verčia šį procesą pradėti ankstų rytą, kad jis netrukdytų dirbti kitiems.

Tačiau likimas kiša visai kito pobūdžio kiaulę, nors tai nėra kažkas visiškai nauja. Jau senai prieš "Web" bumą "askSam" turėjo nestruktūrizuotų tekstų kaupimo, paieškos ir indeksavimo duomenų bazės valdymo sistemą, skirtą PC bei vietiniams tinklams. O ir dabar šios firmos "Web Publisher" atlieka tas pačias funkcijas kaip ir "Altavista".

Be to, ši programa aplenkia "Altavistą" atpažįstamų duomenų formatų kiekiu, pavyzdžiui, DBF. Tai svarbu Lietuvoje, kurioje šis formatas labai paplitęs. O amerikonai yra pamaloninti "askSam" galimybe peržiūrėti "WordPerfect" dokumentus.

Ne, nespjaukite, perskaitę šias eilutes, į "Altavistą". Tiesiog niekad nereikia užmiršti, kad plačiausiai žinomas vardas dar nereiškia geriausio daikto. Tiesa, Švedijoje "Telia" serveryje yra ir lietuviška šios sistemos versija (tiesa, kartais vietoje lietuviškų raidžių pateikiant latviškas, - et, užsieniui ne kažin ką mes ir reiškiam - http://www.altavista.telia.com/cgi-bin/telia?country=lt&lang=lt - jau neveiksni).


Iškart keliese

Daugiau šansų surasti iškart ieškant keliose vietose. Tokia Barbė devyndarbė yra "Metacrawler" paieškos sistema, kuri rūšiuoja iš kelių paieškos sistemų gautus rezultatus pašalindama pasikartojimus.

Atrodytų, ar gali būti geriau? Pasirodo, gali! Tereikia pabandyti "Dogpile". Ji ypač naudinga, kai pabandėt "Yahoo!" ir negavot atsakymo (arba gavot tik kelis), o pabandę "AltaVista" buvote "prislėgti" 30 tūkst. atsakymų šūsnimi. Ji elgiasi labai protingai - pradeda nuo tos paieškos sistemos, kuri gali duoti tiksliausią rezultatą ("Yahoo!"), o po to pereina prie kitų, gražinančių didesnius atsakymų kiekius. Taip palaipsniui ji gali pereiti per 20 skirtingų paieškos sistemų.

"Dogpile" turi ir papildomų gudrybių, pvz., leidžia nustatyti maksimalų atsakymo laukimo laiką - tarp 10 ir 60 sekundžių. Atsakydama "Dogpile" praneša, kiek atsakymų surasta naudojant skirtingas paieškos sistemas. Jei šių rezultatų nepakanka, galiupanaudoti "kitą paieškos sistemų rinkinį" - atsakymų kiekis labai išaugs.


Paieškos komandos

Paieška gali būti painus reikalas. Jei tiksliai nežinote, ko jums ieškoti, po kelių bandymų galite pradėti nervintis nesurasdami reikalingos informacijos. Tačiau ne visi žino, kad užklausose galima naudoti specialias komandas - operatorius, leidžiantis susiaurinti ar išplėsti paieškos sritį. Pavyzdžiui, žodelis "AND" arba ženklas '&' naudojami, kai reikia rasti tekstus, kuriuose būtų abu žodžiai, pvz.,

Jonas AND Skendelis

arba

Jonas & Skendelis

Skliausteliai "( . . . )" leidžia grupuoti kelias užklausas (sukurti kelis scenarijus), kurios atskiriamos kableliais (','), pvz., štai užklausa puslapių, kuriuose būtų žodis "basic" kartu arba su "Netscape" arba su "Explorer":

(Basic & Netscape) , (Basic & Explorer)

Žvaigždutė ('*') nurodo, kad reikia sukurti visų antraščių, į kurias įeina šis žodis sąrašą, pvz.,

Internet*


Kur manasis Valentinas?

"Baltieji puslapiai" ("White Pages") padeda surasti reikiamus asmenis, jų elektroninio pašto adresus ar telefono numerius. Jie peržiūri įvairius viešus informacijos šaltinius: iš universitetų, labdaros organizacijų, kai kuriuos verslo šaltinius ir telefonų knygas. Galite pabandyti keletą:
http://www.bigfoot.com
http://www.four11.com (nupirko Yahoo, linkas neaktyvus)
http://www.iaf.net
http://www.switchboard.com
http://www.whowhere.com

Pasaulio sukūrimo puslapis
Mitologijos puslapis
Vartiklio naujienos
Vartiklis