Evergreen Content
Evergreen Content (deutsch: Immergrüne Inhalte) ist ein Begriff für Inhalte, die dauerhaft und unabhängig von Trends nachgefragt werden. Sie bieten kontinuierlich Mehrwer...
- 06 Dez, 2024
- 0 Kommentare
Die robots.txt ist eine Textdatei, in der du festlegen kannst, welche Teile einer Domain ein Webcrawler crawlen darf und welche nicht.
Mit der Textdatei robots.txt kannst du einzelne Dateien in einem Verzeichnis, ganze Verzeichnisse, Unterverzeichnisse oder komplette Domains vom Crawling exkludieren. Du hinterlegst sie dafür im Root der Domain.
Fast jede Webseite im Internet enthält eine robots.txt Datei, nicht alle Webseitenbetreiber befassen sich jedoch genau mit derer Funktion oder wissen, dass sie überhaupt existiert.
Ist der Crawler einer Suchmaschine auf einer Webseite angekommen, sucht er nach einer robots.txt Datei. Findet er sie, liest der Crawler sie als erstes.
Weil sie Informationen oder eventuell Anweisungen enthält, "wie die Suchmaschine crawlen soll", weisen die dortigen Informationen weitere Crawler-Aktionen auf dieser speziellen Webseite an. Gibt es keine robots.txt Datei (oder wenn sie keine Anweisungen enthält, die die Aktivität eines Benutzeragenten verbietet), untersucht die Suchmaschine alle Inhalte, die über den Quelltext verlinkt werden. Aber die Suchmaschinen entscheiden noch immer selbst, ob sie sich an die Anweisungen der robots.txt halten oder diese zum Teil oder gar komplett ignorieren.
Besitzt du noch keine robots.txt, kannst du diese ganz einfach erstellen:
Bei WordPress kannst du eine Art Muster-Robots.txt über das Yoast-Plugin unter „Werkzeuge“ mit einem Klick erstellen. Dort kannst du dann auch die Robots.txt bearbeiten.
Auf dem Server deiner Webseite kannst du im Start- bzw. Stammverzeichnis über einen FTP-Client wie FileZilla ganz leicht ein Text-Dokument erstellen, über Notepad beispielsweise mit dem Namen „robots.txt“. Über den Server kannst du diese Datei dann auch ganz unkompliziert bearbeiten. Zur Sicherheit solltest du vor Änderungen immer eine Sicherheitskopie bzw. Backup deiner alten robots.txt Datei erstellen.
Zur Erstellung einer robots.txt Datei stellt Google Webmastern eine Anleitung zur Verfügung.
Bei der Suchmaschinenoptimierung (SEO) nimmt die robots.txt Datei je nach Webseite eine große Rolle ein.
Bei WordPress kannst du über die robots.txt den Zugriff auf den Admin Bereich (wp-admin) verwehren, um etwa die sensiblen Daten zur Datenbank, die dort liegen, zu schützen.
Andere Webseiten-Arten, wie zum Beispiel Online-Shops, sperren über die robots.txt gewisse Parameter oder IDs aus, um Duplicate Content zu verhindern. Aber auch um die Menge an irrelevanten Seiten für Suchmaschinen zu limitieren und den Fokus auf relevante Inhalte zu lenken.
Die Funktion der Datei ist stets mit Vorsicht zu genießen. Einerseits entscheiden Suchmaschinen selbst, ob sie sich an die Anweisungen aus der robots.txt Datei halten, andererseits kannst du durch fehlerhafte Angaben wichtige Inhalte für Suchmaschinen unzugänglich machen.
Die robots.txt entscheidet das Crawl-Verhalten für deine Webseite, während der Meta-Robots-Tag das Indexierungsverhalten auf der Ebene der einzelnen Seite (oder eines Seitenelements) bestimmen kann. Die Benutzung der robots.txt ist aber nicht unbedingt leicht: Bei kleineren Webseiten muss eine robots.txt keine zahlreichen Anweisungen beinhalten, während bei größeren Seiten und Online-Shops die richtige Bedienung dagegen eine wichtige Rolle für Crawlbarkeit und saubere Indexierung spielen kann.
Evergreen Content (deutsch: Immergrüne Inhalte) ist ein Begriff für Inhalte, die dauerhaft und unabhängig von Trends nachgefragt werden. Sie bieten kontinuierlich Mehrwer...
Content beschreibt allgemein alle Arten von Inhalten, die in unterschiedlichen Formaten präsentiert werden können. Das können beispielsweise Texte, Bilder, Videos, Audiod...
Link Juice (dt. Link Saft) bezeichnet den Wert, der durch einen Link von einer Webseite zur anderen übertragen wird und spielt eine zentrale Rolle in der Suchmaschinenopt...
Kommentar hinzufügen
Ihre E-Mail-Adresse wird nicht veröffentlicht.