SEO Keine Kommentare zu robots.txt – Stoppschild für Suchmaschinen-Bots?

robots.txt – Stoppschild für Suchmaschinen-Bots?

Suchmaschinen-Bots (auch Robots, Spiders oder User Agents) crawlen täglich das Web auf der Suche nach neuen Inhalten. Ihre Mission ist das Analysieren und Indexieren von Webseiten. Bevor die Crawler mit ihrer Arbeit beginnen, müssen sie jedoch zunächst an der robot.txt Datei vorbei. Das sogenannte „Robots Exclusion Standard Protokoll“ wurde erstmalig 1994 veröffentlicht und regelt das Verhalten von Suchmaschinen-Bots auf Webseiten.

Sofern nichts anderes festgehalten ist, können die Bots Ihre Webseite ungehindert crawlen. Das Erstellen einer robots.txt kann aber auch dabei helfen, bestimmte Seiten oder einzelne Elemente vor den Blicken der Web-Spiders zu schützen. In diesem Artikel erfahren Sie, in welchen Fällen das Erstellen einer robots.txt sinnvoll ist und worauf Sie beim Generieren und Testen der Datei achten sollten.

JETZT NEWSLETTER ABONNIEREN

Gelangt ein Suchmaschinen-Bot auf Ihre Webseite verfolgt er das Ziel, möglichst alle Seiten und Inhalte zu crawlen. Mit den richtigen Anweisungen in der robots.txt Datei kann den Such-Bots direkt mitgeteilt werden, welche Inhalte relevant sind. In anderen Fällen können sensible Daten geschützt, nicht öffentliche Verzeichnisse ausgeschlossen oder Testumgebungen temporär verborgen werden.

Direkt vorab: Eine Garantie, dass sich Crawler an die erstellten Verbote in der robots.txt Datei halten gibt es nicht! Die festgelegten Anweisungen stellen lediglich Richtlinien dar und können folglich kein bestimmtes Verhalten der Crawler erzwingen. Hacker und Scraper lassen sich durch die robots.txt Datei somit nicht stoppen. Dennoch zeigt die Erfahrung, dass sich zumindest die bekanntesten und gängigsten Suchmaschinen wie Google oder Bing an die Vorschriften halten. Einen ausführlichen Artikel zur Funktionsweise des Crawlings lesen Sie in unserem Blogbeitrag „Crawling – die Spinne unterwegs auf Ihrer Webseite“.

Auch sind Verbote in der robots.txt Datei nicht unbedingt das Mittel der Wahl, wenn eine Indexierung durch Suchmaschinen verhindert werden soll. Insbesondere Webseiten, die eine starke Verlinkung aufweisen, können dennoch in den Ergebnislisten ausgewiesen werden. In diesem Fall sollten betroffene Seiten oder Dateien stattdessen mit dem Meta Robots Tag „noindex“ geschützt werden.

Die robots.txt Datei befindet sich immer im Root-Verzeichnis Ihrer Webseite. Die robots.txt Datei kann folgendermaßen aufgerufen werden: Geben Sie die URL der Webseite in die Browser-Suchleiste ein und ergänzen Sie am Ende der Domain /robots.txt. Sofern noch keine Datei vorhanden ist, existieren verschiedene Möglichkeiten, um die robots.txt Datei richtig zu erstellen und zu testen.

robots.txt erstellen – auf die richtige Syntax kommt es an

Im Web finden sich mittlerweile zahlreiche kostenlose Tools und Generatoren, mit denen die robots.txt Datei automatisch erstellt werden kann. Wer auf einen Generator verzichten und seine Datei lieber selbst erstellen möchte, kann dafür einen Plaintext-Texteditor oder die Google Search Console nutzen. Die Google Search Console kann ebenfalls dazu verwendet werden, um im Nachgang die richtige Erstellung der robots.txt Datei zu testen.

Jede robots.txt beinhaltet Datensätze, sogenannte „records“. Jeder Datensatz besteht wiederum aus zwei Teilen. Damit die festgelegten Regeln greifen können, muss die richtige Syntax verwendet werden.

Um Anweisungen und Verbote entgegen zu nehmen, muss zunächst mit dem Befehl „User Agent“ der jeweilige Crawler angesprochen werden. Im zweiten Teil werden mit der Anweisung „Disallow“ weitere Regeln für die Bots eingeleitet. Wird eine Seite oder ein Element nicht über Disallow blockiert, wird der User Agent standardmäßig alle Inhalte crawlen.

Das Grundschema für den Aufbau eines Datensatzes ist demnach wie folgt aufgebaut:

User-Agent: *

Disallow:

Eine weitere Option wäre die Verwendungder Anweisung „Allow“, die das Crawlen im Vergleich zu Disallow explizit erlaubt:

User Agent: *

Allow: /

Mit diesen Anweisungen wird es allen Crawlern erlaubt auf alle Ressourcen zuzugreifen. Der verwendete Stern (Wildcard) gilt dabei als Variable für alle Crawler. Alle Anweisungen  werden von oben nach unten verarbeitet. Ebenfalls muss beim Erstellen der Regeln zwingend auf Groß- und Kleinschreibung geachtet werde. Im folgenden Beispiel wird es lediglich dem Googlebot untersagt auf eine Unterseite der Webseite zuzugreifen:

User-Agent: Googlebot

Disallow: /unterseite.html

Mit der Anweisung „User Agent“ kann jeweils immer nur ein Suchmaschinen-Bot angesprochen werden. Sollen unterschiedliche Bots adressiert werden, wird in der robots.txt Datei ein weiterer Block benötigt. Dieser wird ebenfalls nach dem Grundschema aufgebaut. Zwischen den Zeilen wird eine Leerzeile notiert:

User-Agent: Bingbot

Disallow: /verzeichnis1/

User-Agent: Googlebot

Disallow: /shop/

In diesem Beispiel wird es dem Bingbot nicht erlaubt, auf das Verzeichnis 1 zuzugreifen, während es dem Googlebot untersagt ist, den Shop der Seite zu crawlen. Alternativ können gleiche Anweisungen für unterschiedliche Bots auch direkt untereinander notiert werden:

User-Agent: Bingbot

User-Agent: Googlebot

Disallow: /shop/

Übersicht der bekanntesten Suchmaschinen-Crawler:

Webseiten-Inhalte richtig ausschließen

Wie die letzten Beispiele zeigen, beginnen Angaben für Dateien und Verzeichnisse in der Regel hinter der Domain mit einem Slash „/“. Im Anschluss daran folgt der Pfad. Auch sollte immer an den Slash am Ende des Verzeichnisnamens gedacht werden. Hierbei sollte jedoch bedacht werden, dass mit dem Slash am Ende weitere Unterverzeichnisse weiterhin von den Bots gecrawlt werden können. Wer dies vermeiden möchte, lässt den Slash am Ende einfach weg.

Im ursprünglichen Protokoll war es nicht vorgesehen, einzelne Seiten oder Elemente explizit für die Indexierung zu erlauben. Allow kann bei der Erstellung jedoch auch dafür genutzt werden, um Unterverzeichnisse oder Dateien in eigentlich gesperrten Verzeichnissen für die Bots freizugeben:

User-Agent: *

Disallow: /Bilder/

Allow: /Bilder/öffentlich/

Für die Sperrung bestimmter Dateien (z. B. PDFs oder Bilder) wird empfohlen, zusätzlich ein „$“ an das Ende der Dateibezeichnung hinzuzufügen. Dieses signalisiert, dass keine weiteren Zeichen folgen dürfen:

User-Agent: *

Disallow: /*.gif$

Zusätzlich ist es zu empfehlen, in der robots.txt Datei ein Verweis auf die Sitemap zu integrieren. Warum es sinnvoll ist, eine Sitemap für Ihre Webseite zu nutzen und wie diese richtig angelegt wird, lesen Sie in unserem Blogbeitrag „Die perfekte Sitemap“. Um die Sitemap hinzuzufügen, reicht eine einfache zusätzliche Zeile:

User-Agent: *

Disallow:

Sitemap: https://NameWebseite.com/sitemap.xml

robots.txt Datei richtig testen

Nach der Erstellung sollte die robots.txt noch einmal getestet werden, denn schon kleinste Fehler können dazu führen, dass die Datei von den Crawlern missachtet werden kann. Mit der Google Search Console kann geprüft werden, ob die Syntax der Datei richtig angelegt wurde. Der robots.txt Tester überprüft ihre Datei dabei genauso wie der Googlebot, ob die entsprechenden Dateien richtig blockiert wurden. Dazu geben Sie lediglich die URL ihrer Seite in das Textfeld unten auf der Seite ein. Der robots.txt Tester kann bereits genutzt werden, bevor Sie die Datei in das Root-Verzeichnis laden. Geben Sie dazu die Syntax einfach in die Eingabemaske ein:

Screenshot des robots.txt Testers in der Search Console
Abbildung 1: Screenshot des robots.txt Testers der Search Console

Wenn keine Fehlermeldungen mehr angezeigt werden, können Sie die robots.txt Datei in das Root-Verzeichnis der Webseite hochladen. Zum Zeitpunkt des Verfassens des Artikels wurde beispielhaft der robots.txt Tester aus der alten Version der Google Search Console verwendet. In der neuen Version des GSC ist der robots.txt Tester momentan noch nicht verfügbar.

Fazit:

Die robots.txt Datei gibt den großen Rahmen für Suchmaschinen-Bots vor und kann dabei helfen, Seiten oder einzelne Dateien vor den Crawlern zu verbergen. Eine Garantie für das Einhalten der Regeln gibt es allerdings nicht. Wer auf Nummer sicher gehen und eine Indexierung der Seite verhindern möchte, sollte zusätzlich den Meta Tag „noindex“ benutzen. Bei der Erstellung der robots.txt muss zwingend auf die Verwendung der richtigen Syntax geachtet werden. Zur Überprüfung der Datei können beispielsweise Tools wie die Google Search Console benutzt werden.

JETZT NEWSLETTER ABONNIEREN

Was können wir für Sie tun?

Sie möchten auf Ihrer Webseite eine robots.txt Datei einbinden? Sie haben Fragen zur Erstellung, zum Testen oder Einbinden Ihrer robots.txt Datei? Gerne unterstützen wir Sie bei der Beantwortung und Umsetzung Ihrer Anfragen. Wir freuen uns auf Ihre Kontaktaufnahme!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert