🚀 Buche dir jetzt deine unverbindliche und kostenlose Marktplatz Tour 📅

Webcrawler: was macht ein Crawler?

Dennis Benjak

Wiki

Kategorie

0 Kommentar(e)

Diskussion

Ein Crawler (Webcrawler) ist ein Software-Programm, das automatisiert das Internet durchsucht und “scannt”. In der Regel sind Crawler zuständig, bspw. Internetseiten immer und immer wieder zu durchsuchen. Genau darum geht’s in diesem Artikel!

Suchmaschinen wie Google nutzen Crawler, um auf Webseiten neue Inhalte zu finden und listet diese in der Google Suchmaschine. Vorher fließen die gesammelten Informationen in einen Algorithmus ein, der diese Informationen bewerten und anschließend in den Google Index aufnimmt (oder auch nicht). Auf Basis der Bewertungen entstehen anschließend die Suchergebnisse, die wir von den Google Suchergebnissen (SERPs) kennen.

Vielleicht kennst du den Begriff auch unter dem Namen Webcrawler, (Suchmaschinen-)Spider oder (Search-)bot.

Definition

Hierbei geht’s also um eine Software, die das Internet ständig nach neuen Webseiten und Inhalten (Texte, Bilder, Videos etc.) durchsucht. Jede Suchmaschine im Internet arbeitet auf Grundlage eines Crawlers, um ihre Datenbank zu füllen und zu aktualisieren. Um diese unendliche Anzahl von Seiten im Internet indexieren zu können, arbeiten diese Programme automatisiert. Dabei sind verschiedene Searchbots für verschiedene Funktionen zuständig. Ein Crawler kann die Texte analysieren, während ein anderer die Bilder ausliest.

Webcrawler



Bildnachweis: © topvectors – stock.adobe.com

Nicht zuletzt, weil Google in Deutschland und den meisten anderen Länder die marktführende Suchmaschine anbietet, ist der Googlebot – der Google Crawler – am bekanntesten.

Wie funktioniert ein Crawler?

Ein Searchbot folgt prinzipiell jeder Seite im Internet, sofern diese auffindbar ist. Das ist allerdings sehr allgemein beschrieben – in der Praxis ist es wesentlich komplexer. Das Aufrufen der Seiten ist in einer bestimmten Abfolge festgelegt und wiederholt sich ständig. Da es unzählige Webseiten im Netz gibt, muss auch Google hier stark priorisieren. Dafür ist das sogenannte Crawl Budget zuständig. Jede Seite bekommt also vom Google Bot ein Budget, wie weit der Crawler sich durch die Seite sucht. Ist das Crawl Budget aufgebraucht, durchsucht der Crawler auch die Webseite nicht weiter.

Webcrawler
Search Console Einblick: “Gefunden – zurzeit nicht indexiert” – sind die URLs, die Google zwar erkannt, aber nicht gecrawlt bzw. indexiert hat. Hier reicht oft das Crawl Budget für deine Seite nicht aus.

Alle gefundenen Seiten (URLs) werden dann durch verschiedene Algorithmen nach bestimmten Kriterien sortiert und bewertet. Um welche Kriterien es sich handelt und wie diese bewertet werden, veröffentlichen die Betreiber von Suchmaschinen nicht, da es sich um ihre Geschäftsgeheimnisse handelt. Trotzdem gibt es bestimmte Rankingfaktoren, die laut Google & Co. wichtig sind, um von den Algorithmen positiv bewertet zu werden.

Es ist daher unter anderen die Aufgabe von SEO Agenturen, herauszufinden, wie die Algorithmen denken und arbeiten. Oft gibt es bewährte Taktiken, die sich mit den Jahren etabliert haben. Oft gibt es Maßnahmen, die nicht im Sinne von Google sind, die aber die Rankings positiv beeinflussen. Diese Taktiken nennt man “Black Hat SEO“. Der Name soll aussagen, dass diese Taktiken nicht im Sinne von Google sind – das Gegenstück hierzu wäre White Hat SEO.

Falls du noch nicht ganz verstanden hast, welche Rolle ein Searchbot spielt…

Das folgende Video gibt unter anderem Aufschluss darüber, wie Crawling funktioniert und wie die Webseiten gerankt werden.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Der Crawler in der Praxis

Durch sogenannte Logfiles des Webcrawlers kann ein Webmaster, also der Inhaber einer Webseite Informationen darüber bekommen, wer genau den Server ausforscht und die Seite “durchsucht”. Er hat auch bestimmte Möglichkeiten, dem Searchbot den Zugang zu verwehren. Wenn man z.B. nicht möchte, dass bestimmte Informationen über den Crawler abgerufen werden, kann man sogenannte Meta Tags im HTML-Dokument hinzufügen, um das zu verwehren. Das kann ebenfalls über die Robots.txt Datei mit der Kennzeichnung: „Disallow:/“ erreicht werden. Damit sagst, du dem Crawler: Diese URL bitte nicht crawlen geschweige denn indexieren. Google checkt immer, ob es eine Regel in der Robots.txt gibt, bevor er die Seite weiter prüft.

Man kann auch festhalten, mit welcher Frequenz (via Google Search Console) oder wie viele Seiten der Googlebot durchsucht, damit bspw. nicht die Serverleistung beeinträchtigt wird.

Die interne Verlinkung von Webseiten spielt beim Crawlen von Webseiten eine große Rolle. Durch interne Verlinkungen versteht der Crawler deine Webseite und die verlinkten Informationen. So kommt der Crawler “von Stöckchen auf Steinchen”. Bekommt der Crawler zum Beispiel bei jedem zweiten internen Link einen 404 Fehler (Seite nicht gefunden), könnte sich das negativ auf dein Crawl Budget auswirken.

Webcrawler und andere Anwendungsgebiete

Ein Webcrawler kann auch dazu dienen, bestimmte Informationen aus Webseiten herauszufiltern. Preisvergleichseiten nutzen Crawler hauptsächlich, um aktuelle Preisinformationen zu erhalten. Auch Data-Mining ist ein typisches Anwendungsgebiet für Webcrawler.

SEO Tools wie ahrefs, Sistrix & Co. nutzen auch Webcrawler, um Daten für eine Webanalyse von Webseiten bereitzustellen. Das ist die Grundlage für die Arbeit von SEO-Analysten. Diese Daten, die der Crawler analysiert, werden entsprechend aufbereitet und zeigen dann bspw. Werte wie den organischen Traffic, der über bestimmte URLs auf deine Seite kommt. Eigene Tools von Google dazu nennen sich Google Search Console und Google Analytics. Diese hauseigenen Tools von Google sind dafür da, den Datenfluss zu analysieren und Probleme zu ermitteln. Diese Tools sind die Grundbausteine eines jeden SEO’s.

Leider wird ein Webcrawler nicht nur für den Index der Suchmaschinen verwendet, sondern auch bspw. für das Sammeln von E-Mail-Adressen. Ein Scraper z.B. handelt inhaltsbasiert und nicht auf Grundlage der Meta-Informationen. Dieser dient dem Zweck Content abzugreifen und diesen zu kopieren bzw. wiederzuverwenden.

Verschiedene Webcrawler für unterschiedliche Zwecke

Ein Crawler kann eine Vielzahl von Aufgaben erledigen, die über das einfache Durchsuchen von Websites hinausgehen. Hier sind einige weitere Funktionen, die ein Crawler ausführen kann:

  • Focused Crawler: Dieser Webcrawler ist darauf spezialisiert, sich auf ein bestimmtes Themengebiet zu konzentrieren. Dabei klassifiziert der Crawler nicht nur Websites, sondern auch die gefundenen Links.
  • Data Mining: Bestimmte Crawler durchforsten das Web gezielt nach spezifischen Daten, wie beispielsweise Benutzerprofilen oder E-Mail-Adressen von Unternehmen. Manche dieser Bots, auch als “Harvester” bekannt, sammeln lediglich Adressen, um später Spam-Mails zu versenden.
  • Vermessung und Analyse des Internets: Diese Bots werden oft zu wissenschaftlichen Zwecken eingesetzt, um die Ausbreitung und Struktur des Internets zu messen und zu analysieren.
  • Plagiatssuche oder Recherche nach urheberrechtlich geschütztem Material: Diese Webcrawler kommen zum Einsatz, um Verstöße gegen das Urheberrecht aufzudecken und geschütztes Material im Netz zu identifizieren.
  • Scraping: Manche Websites im Internet verwenden kopierte Inhalte, zum Beispiel Preisvergleichsportale, die Inhalte von Anbietern auf ihren Seiten verwenden. Während einige Spam-Websites Inhalte “scrapen”, um einfachen Content zu erhalten, betrachtet Google diese Praxis als manipulativ und kann sie mit dem Ausschluss aus dem Suchindex bestrafen.

Relevanz für SEO

Eins steht fest: Ohne Crawler gäbe es auch keine Suchmaschinen. Sie bieten die Grundlage und sind quasi der Manager, der die Informationen der Webseiten sammelt. Wie bereits oben erwähnt ist die Google Search Console ein wichtiges Instrument, um Webcrawler zu beeinflussen und auch festzustellen, ob bestimmte Seiten gar nicht berücksichtigt werden. Somit ist es essenziell zu wissen, wie sie arbeiten und welchem Zweck sie dienen.

Um von den Suchmaschinen indexiert zu werden, sollte deine Website ideal vom Webcrawler durchsucht werden können. Dafür solltest du eine robots.txt-Datei anlegen und sensible Bereiche vor der Indizierung ausschließen. Ein weiteres essenzielles Instrument ist, die in der Google Search Console hinterlegte XML-Sitemap. In der Google Search Console kannst du außerdem überprüfen, ob der Googlebot alle wichtigen Bereiche einer Webseite erreichen und indexieren kann.

Du benötigst Hilfe dabei? Jetzt bei kreuzweise SEO Agentur unverbindlich anfragen!

Als Basis dient eine nach Möglichkeit flache sowie logische URL-Struktur, um es dem Crawler so einfach wie möglich zu gestalten. Zudem sorgt eine ordentliche Verlinkung (Trustlinks, sowie Backlinks) dafür, dass Webspider deine Seite auch besuchen. Wie du Backlinks aufbauen kannst, erfährst du im entsprechenden Beitrag. Um starke und nachhaltige Backlinks in kürzester Zeit aufzubauen, kannst du Kontakt mit uns aufnehmen oder deinen Linkaufbau selbst auf unserem Marktplatz planen.

Pro Seite hat jeder Searchbot nur einen limitierten Zeitraum zur Verfügung – auch Crawl Budget genannt. Mit SEO sowie einer verbesserten Navigation und dem Dateiumfang kannst du als Webseitenbetreiber das Crawl Budget des Googlebots beispielsweise besser ausnutzen. Gleichzeitig steigt das Budget durch zahlreiche eingehende Links und eine stark frequentierte Seite.

Leave a Reply

Your email address will not be published.

icon
icon

Jetzt kostenlos registrieren!

DEBUG
Ausschließlich für Geschäftskunden (B2B). Mit Absenden deiner E-Mail Adresse stimmst du unseren AGB und Datenschutzbestimmungen zu. Die Registrierung ist durch reCAPTCHA geschützt. Es gelten die Google Datenschutzerklärung und Nutzungsbedingungen.