|
Af Timm W. Larsen
@-begynder
Opdateret januar 2003
Baggrunden
Hele Internettet gennemsøges konstant af
såkaldte søgerobotter, webcrawlers eller spiders
... kært barn har
mange navne … i denne artikel vil vi
nøjes med blot at kalde dem robotter. Disse robotter følger
links fra side til side og finder på den måde langsomt rundt på
hele Internettet.
De fleste webmasters ved
godt, at det er vigtigt at lave metakoder for
at hjælpe robotterne med at indeksere en hjemmeside korrekt
...
ikke mindst hvis man vil opnå en "god
karakter" og dermed blive placeret højt i
søgeresultaterne.
Men det er ikke så mange
webmasters der ved, at der også er et andet og mindst
lige så vigtigt værktøj til søgemaskineoptimering. Værktøjet
hedder "robots.txt".
Hvis du endnu ikke har læst om metakoder, bør
du starte med vores
vejledning om
søgemaskiner >>
Robots.txt
Robots.txt er som filnavnet antyder en lille
tekstfil, som er henvendt til robotterne, som søgemaskinerne
hele tiden sender til dit site. Robots.txt indeholder
oplysninger om, hvilke sider der IKKE skal indekseres.
Du kan altså bruge robots.txt til at fortælle
hvilke sider, der ikke skal være offentligt tilgængelige på
søgemaskinerne. Du kan endda specificere, hvilke robotter der
skal have adgang ... og hvilke der ikke skal.
Robots.txt hjælper dig ikke blot til at styre
robotterne. Den giver dig også en bedre placering på
søgeresultaterne. Det hænger sammen med, at robotterne er
"glade" for at
blive hjulpet med indekseringen. De belønner derfor sider, der
hjælper dem med de rigtige værktøjer (metakoder og robots.txt)
ved at tildele dem bedre placeringer på søgeresultaterne end
hjemmesider uden.
HVORDAN VIRKER DET?
Når en robot kommer forbi din side, starter den
med at se efter en robots.txt. Hvis den finder en, retter den
sig efter indholdet heri.
Jamen, det er da let for søgemaskinerne at
snyde!!!
Ja, det er rigtigt. Men erfaring har vist, at
de ikke ønsker det. Firmaerne bag
søgemaskinerne forstår nemlig, at de fleste webmasters blot
ønsker at udelukke sider, der er
uinteressant, halvfærdige eller skal ses
i en større sammenhæng. Og det er
naturligvis også i søgemaskinernes interesse, da de på den måde
kan præsentere et bedre resultat for deres brugere.
HVORDAN GØR JEG?
Faktisk er det temmelig simpelt at lave en
robots.txt … det svære ligger i at lave den korrekt. Det er
nemlig vigtigt, at beskederne til robotterne skrives præcist, da
de ellers ikke vil kunne forstå dem.
Selve txt filen kan du skrive med en hvilken
som helst teksteditor. Vi kan anbefale Notesblok (Notepad), som
følger med Windows. Åben et nyt dokument og gem det som
robots.txt i roden af dit websted. Bemærk at
robots.txt SKAL placeres i roden af dit websted (ved
siden af din default eller index-side).
Hvis robots.txt ikke
placeres i roden af webstedet
har den ingen effekt ...
HVAD SKAL DER STÅ I FILEN
Robots.txt skal indeholde to ting. Nemlig
hvilke robotter reglerne gælder for samt en liste over sider
eller mapper, der ikke skal indekseres. Man kan lave forskellige
lister for forskellige robotter.
Sådan angiver du hvilke robotter reglerne
gælder for:
User-agent: robot
Sådan angiver du hvilke sider og mapper, der
ikke skal indekseres:
Disallow: /sider og mapper
EKSEMPLER
Det er nok lettest at forklare robots.txt ved
at vise et par eksempler. Lad os starte med det mest simple
eksempel af dem alle
Eksempel 1
Det mest simple eksempel er en robots.txt, der angiver,
at alle robotter må læse alle sider. Det ser således ud:
User-agent: *
Disallow:
"*" angiver at
reglen gælder for alle robotter. Disallow angiver normalt hvilke
sider og mapper, der IKKE må indekseres. Når disallow er tom, må
alle sider altså indekseres.
Man kunne opnå samme resultat ved at lave en robots.txt helt
uden indhold.
Hvorfor skal man lave en robots.txt, når man ikke har sider, som
ikke skal indekseres? Som nævnt tæller robots.txt med som
pluspoint, når dit websted får karakter af søgemaskinerne. En
tom robots.txt viser, at du ikke har glemt at tage højde for
robotterne.
Eksempel 2
Næste eksempel viser, hvordan du kan udelukke alle robotter fra
hele dit website:
User-agent: *
Disallow: /
"*" angiver at
reglen gælder for alle robotter. "/"
angiver som du sikkert ved roden på dit website. Reglen
fortæller altså, at alle filer i rodmappen skal udelukkes fra
indeksering.
Eksempel 3
Hvis du vil udelukke en enkelt robot fra nogle sider,
men tillade andre robotter at indeksere siderne, kan det gøres
sådan:
User-agent: Webcrawler
Disallow: /sko/
User-agent: *
Disallow:
Robotten "Webcrawler"
udelukkes fra hele mappen "sko".
Alle andre robotter gives adgang til hele sitet.
Eksempel 4
Du kan både angive mapper, undermapper og enkelte sider. Det
gøres således:
User-agent: *
Disallow: /sko/
Disallow: /sko/sorte/
Disallow: /sko/sorte/laeder.htm
Øverste linje udelukker alle robotter fra mappen
"sko" … samt alle mapper og sider
herunder. Næste linie udelukker alle robotter fra undermappen
"sko/sorte" samt
alle mapper og sider herunder. Sidste linie udelukker robotterne
fra siden "laeder.htm"
i undermappen "sko/sorte".
Bemærk: En robots.txt som denne er naturligvis ikke særlig god,
da der er tale om dobbeltkonfekt. Siden "laeder.htm"
er jo faktisk blevet udelukket tre gange. Der er
dog ikke tale om en decideret fejl, og robots.txt virker korrekt
... den er bare ikke så smart sat op, da man jo kunne undvære de
nederste to linier.
Eksempel 5
Du angiver en side i roden således:
User-agent: *
Disallow: /min_onkels_billeder.htm
Alle robotter udelukkes fra siden med din onkels billeder.
Eksempel 6
Hvis du har en hel række sider, som ikke skal indekseres, kan du
fx placere dem alle i én mappe, således:
User-agent: *
Disallow: /uinteressant/
Alternativt skal du udelukke hver enkelt side. Og det kan jo
godt tage sin tid, hvis du har mange sider, der ikke skal
indekseres. Samtidig skal du huske på, at det er noget nemmere
at vedligeholde robots.txt, hvis du vænner dig til at placere
sider, der ikke skal indekseres, i samme mappe.
BEMÆRK:
Robots.txt kan læses af alle. Så lad nu vær med fx at lave en
fil som denne:
User-agent: *
Disallow: /mine_pinkoder.htm
HUSK
- robots.txt skal placeres i roden af dit dokument.
- robots.txt skal opdateres løbende, når du udvikler dit website.
- robots.txt skal skrives præcist … pas på stavefejl o.l.
Det er let at lave en
robots.txt ...
så hvorfor ikke hjælpe søgemaskinerne ... og dig selv?
stem her!
|