Ein Webcrawler ist ein digitaler Suchroboter, der jeden Tag automatisch unzählige Webseiten durchsucht. Er folgt von der Startseite aus allen Unterseiten und Links, um neue oder aktualisierte Seiten zu finden. Er speichert Informationen über die besuchten Seiten um Suchmaschinen-Indizes zu erstellen. Dadurch kann die entsprechende Webseite auf Suchmaschinen indexiert werden. Die Verwendung einer Sitemap erleichtert Crawlern das schnelle Finden von tiefer liegenden Seiten.
Crawler ausschließen
Ein Crawler kann auch von der Webseite ausgeschlossen werden, wenn der Webseitenbetreiber nicht will, dass bestimmte Seiten indexiert werden. In der robots.txt Datei kann die URL ausgeschlossen werden.