Startseite | Wissen | Glossar | Website Crawling
Website Crawling bezieht sich auf den Prozess, bei dem Suchmaschinenbots, auch als Crawler oder Spider bezeichnet, das Internet systematisch durchsuchen, um Informationen von Webseiten zu erfassen. Der Crawler durchläuft dabei die Seitenstruktur, folgt den Links und sammelt Daten, die später in einem Index gespeichert werden.
Der Crawler beginnt seinen Scan von einem oder mehreren Startpunkten, oft den URLs bekannter Websites. Während des Crawlings folgt der Crawler den vorhandenen Links auf einer Seite und gelangt so von einer Seite zur nächsten. Dabei sammelt er Informationen wie Texte, Bilder, Metadaten und andere relevante Daten von den besuchten Webseiten. Die gesammelten Daten werden schließlich in einem Index gespeichert, der als Basis für die spätere Erstellung von Suchergebnissen dient.
Website Crawling sollte von anderen Begriffen wie Index (Speicherung und Organisation von gesammelten Daten) und Ranking (Festlegung der Reihenfolge der Suchergebnisse) unterschieden werden.
Ein neuer Blogbeitrag wird auf einer Website veröffentlicht. Der Suchmaschinen-Crawler entdeckt diesen Beitrag während seines nächsten Durchgangs, sammelt die Informationen und fügt sie in den Suchmaschinenindex ein, um sie später in den Suchergebnissen darzustellen.