[Forrige artikkel] [Indeks] [Neste artikkel] [CW hjemmeside]

Roboter skaper trengsel på Web


Søkesystemer som Lycos og Webcrawler gjør det praktisk å bruke Internett. Men mange Web-sjefer er mindre glade i søke-robotene fordi de skaper mye trafikk og avslører sider under oppbygging.

Einar Ryvarden

Hvileløst løper søkerobotene fra Lycos, Webcrawler, Yahoo og de andre søketjenestene rundt på Internett og indekserer alt de kommer over. Deres iherdige arbeid gir Internett-brukere tilgang til lynraske søk i enorme informasjonsmengder som ellers hadde vært utilgjengelige.

Men en del Web-serversjefer er ikke like glade i de små søkeprogrammene. Indeksering stjeler nemlig mye ressurser. På mange servere er innholdet relativt statisk, men på en del servere , som for eksempel CNNs nyhetstjeneste, endrer innholdet seg hele tiden. Det er heller ikke noe poeng å indeksere slike nyhetsider, da koblingene ikke vil virke neste dag.

En annen grunn til at man ønsker å begrense robotsøk er man ikke ønsker koblinger til sider under utvikling. Nylig oppdaget Netscape at en robot fra søketjenesten Architext hadde laget koblinger til uferdige sider på deres Web-server.

En sentral person i arbeidet med å styre robotene er Martin Koster, nå ansatt i American Online-eide Webcrawler. Han jobber med to forskjellige teknologier -- en for å stoppe stoppe robotsøk og en for å forenkle søkene de gjør.

Tidlig i 1994 laget Koster en protokoll der man på en server kan legge en fil som inneholder de forskjellige søkemotorene og veien de bruker inn. I filen kan man ekskludere enkelte roboter eller områder på serveren. De fleste søketjenestene leser nå slike filer, men dette er en ren frivillighet.

Aliweb

Koster har også utviklet Aliweb, en protokoll for ferdige indekser som robotene kan kopiere. Å lage indeksen selv gir en rekke fordeler selv om det tar litt tid.

-- Vi kjenner jo best til hva som ligger på vår server og kan dermed beskrive det langt bedre og mer konsist enn et automatisk robotsøk klarer. Vi har derfor lagt ut en Aliweb-fil, men roboter får likevel kjøre fulltekstindeksering. Det generer noe trafikk, men vi synes det er verd oppmerksomheten vi får, sier Steinar Kjærnsrød, avdelingsleder for Schibsted Netts innholdsproduksjon.

Koster har også videreutviklet Aliweb ved å opprette servere som samler inn Aliweb-indekser. Nexor, Kosters gamle arbeidsplass har opprettet en slik server som oppdatere Aliweb-indeksene fra et stort antall servere i USA. Nexor kan nås på

http://web.nexor.co.uk/public/aliweb/search/doc/form.html.

Men følger ikke søketjenestene robotkontroll-protokollene, er det ingen ting som kan stoppe dem. Kjærnsrød påpeker at enkelte Web-eiere har kodet brannmur-lignende funksjoner som stopper alle forespørsler fra IP-adresser til roboter man kjenner, men dette er tungvint og IP-adressene forandrer seg.

ALIWEB: Aliweb-protokollen definerer et enkelt format for å lage indekser som søkerobotene kan plukke opp. Dette begrenser trafikken på serveren og gir bedre indekser. Bildet over viser indexen fra Nexors Web-server.

[Forrige artikkel] [Indeks] [Neste artikkel]


[Image map not available]
Artikkel automatisk generert, 23/11-95, kl. 19.47 cw@oslonett.no