Webcrawler

Ein Web­craw­ler ist ein di­gi­ta­ler Such­ro­bo­ter, der je­den Tag automatisch un­zäh­li­ge Web­sei­ten durch­sucht. Er folgt von der Start­sei­te aus al­len Un­ter­sei­ten und Links, um neue oder ak­tua­li­sier­te Sei­ten zu fin­den. Er speichert Informationen über die besuchten Seiten um Suchmaschinen-Indizes zu erstellen. Da­durch kann die ent­spre­chen­de Web­sei­te auf Such­ma­schi­nen indexiert wer­den. Die Ver­wen­dung ei­ner Sitemap er­leich­tert Craw­lern das schnel­le Fin­den von tie­fer lie­gen­den Sei­ten.

Craw­ler aus­schlie­ßen

Ein Craw­ler kann auch von der Web­sei­te aus­ge­schlos­sen wer­den, wenn der Web­sei­ten­be­trei­ber nicht will, dass be­stimm­te Sei­ten in­de­xiert wer­den. In der ro­bots.txt Da­tei kann die URL aus­ge­schlos­sen wer­den.