Einar Ryvarden
Søkesystemer som Lycos og Webcrawler gjør det praktisk å bruke Internett. Men mange Web-sjefer er mindre glade i søke-robotene fordi de skaper mye trafikk og avslører sider under oppbygging.
Hvileløst løper søkerobotene fra Lycos, Webcrawler, Yahoo og de andre søketjenestene rundt på Internett og indekserer alt de kommer over. Deres iherdige arbeid gir Internett-brukere tilgang til lynraske søk i enorme informasjonsmengder som ellers hadde vært utilgjengelige.
Men en del Web-serversjefer er ikke like glade i de små søkeprogrammene. Indeksering stjeler nemlig mye ressurser. På mange servere er innholdet relativt statisk, men på en del servere , som for eksempel CNNs nyhetstjeneste, endrer innholdet seg hele tiden. Det er heller ikke noe poeng å indeksere slike nyhetsider, da koblingene ikke vil virke neste dag.
En annen grunn til at man ønsker å begrense robotsøk er man ikke ønsker koblinger til sider under utvikling. Nylig oppdaget Netscape at en robot fra søketjenesten Architext hadde laget koblinger til uferdige sider på deres Web-server.
En sentral person i arbeidet med å styre robotene er Martin Koster, nå ansatt i American Online-eide Webcrawler. Han jobber med to forskjellige teknologier -- en for å stoppe stoppe robotsøk og en for å forenkle søkene de gjør.
Tidlig i 1994 laget Koster en protokoll der man på en server kan legge en fil som inneholder de forskjellige søkemotorene og veien de bruker inn. I filen kan man ekskludere enkelte roboter eller områder på serveren. De fleste søketjenestene leser nå slike filer, men dette er en ren frivillighet.
-- Vi kjenner jo best til hva som ligger på vår server og kan dermed beskrive det langt bedre og mer konsist enn et automatisk robotsøk klarer. Vi har derfor lagt ut en Aliweb-fil, men roboter får likevel kjøre fulltekstindeksering. Det generer noe trafikk, men vi synes det er verd oppmerksomheten vi får, sier Steinar Kjærnsrød, avdelingsleder for Schibsted Netts innholdsproduksjon.
Koster har også videreutviklet Aliweb ved å opprette servere som samler inn Aliweb-indekser. Nexor, Kosters gamle arbeidsplass har opprettet en slik server som oppdatere Aliweb-indeksene fra et stort antall servere i USA. Nexor kan nås på
http://web.nexor.co.uk/public/aliweb/search/doc/form.html.
Men følger ikke søketjenestene robotkontroll-protokollene, er det ingen ting som kan stoppe dem. Kjærnsrød påpeker at enkelte Web-eiere har kodet brannmur-lignende funksjoner som stopper alle forespørsler fra IP-adresser til roboter man kjenner, men dette er tungvint og IP-adressene forandrer seg.
ALIWEB: Aliweb-protokollen definerer et enkelt format for å lage indekser som søkerobotene kan plukke opp. Dette begrenser trafikken på serveren og gir bedre indekser. Bildet over viser indexen fra Nexors Web-server.