robots.txt erstellen

geschrieben von Marion Engel am 29. September 2008 um 7:00 Uhr

Für manche Webmaster scheint die robots.txt noch immer ein Buch mit sieben Siegeln zu sein. Aber dafür gibt es eigentlich keinen Grund, denn es gibt nur wenige Regeln, die man kennen muss, um eine korrekte robots.txt zu erstellen. Und die wären:

Sinn und Zweck

Mit der robots.txt kann gesteuert werden, welche Seiten einer Website von welchen Agenten nicht besucht werden dürfen. Wichtige Agenten sind die Spider der Suchmaschinen, die die Seiten indizieren müssen, um sie in den Suchergebnissen anzeigen zu können. Andere Agenten sind eher mit unlauteren Absichten im Web unterwegs und versuchen vor allem Mailadressen aus dem Web zu saugen, um sie kurz darauf mit Spam-Mails zu bombardieren. Man findet im Web zwar etliche Listen solcher unerwünschten Agenten. Ob es aber hilfreich ist, sie in der robots.txt auszuschließen, darf bezweifelt werden. Denn einerseits können die heute bekannten Namen schon morgen veraltet und durch neue Namen ausgetauscht worden sein. Und andererseits ist davon auszugehen, dass Agenten, die mit unguten Absichten auf Besuch kommen, natürlich auch “Verbotsschilder” wie die robots.txt ignorieren.
Welche Seiten wird man üblicherweise von der Indizierung ausschließen?

  • Formulare, die lediglich Anfragezwecken dienen
  • Seiten, die nicht suchmaschinenoptimiert wurden wie z.B. Preislisten
  • Pflichtseiten wie z.B. das Impressum
  • Seiten, die nur temporär in der Website enthalten sind
  • alle Seiten in geschützten Bereichen

Gerade in Bezug auf den letzten Punkt muss aber betont werden, dass die robots.txt keine Zugriffskontrolle übernimmt. Geschützte Seiten müssen durch Passwortmechanismen vor unerwünschten Zugriffen geschützt werden. Und andersherum ist eine robots.txt-Datei keine Garantie für eine gute Position in den Suchergebnissen.
Erstellung und Name

Um eine funktionsfähige robots.txt-Datei zu erstellen, benötigt man einen Texteditor. Ein solcher ist standardmäßig auf jedem Windows-Rechner vorhanden. Die Datei muss unter dem Namen robots.txt gespeichert werden, wobei Gross- und Kleinschreibung zu beachten sind.

Speicherplatz

Die Datei muss auf den Webserver übertragen werden und auf der obersten Ebene der Domain gespeichert werden. Sie muss also neben der index.html stehen. Wenn man im Browser www.<domainname>/robots.txt eingibt und die Inhalte zu sehen sind, liegt die Datei im richtigen Verzeichnis.

Inhalt

Die robots.txt enthält zwei Arten von Anweisungen:

Auf User-agent: folgt der Name des betreffenden Agenten, der vom Besuch ausgeschlossen werden soll. Für jeden namentlich genannten Agenten muss eine eigene Zeile geschrieben werden, die immer mit einem Großbuchstaben beginnen muss.

  • User-agent:  * schließt alle Agenten gleichermaßen aus
  • User-agent: Googlebot schließt den Spider aus, der die Seiten für Googles Web- und den News-Index besucht
  • User-agent: Googlebot-Mobile schließt den Spider aus, der die Seiten für Googles mobilen Index besucht
  • User-agent: Googlebot-Image schließt den Spider aus, der die Seiten für Googles Bildindex besucht
  • User-agent: Slurp schließt den Spider aus, der die Seiten für Yahoo!s Web-Index besucht
  • User-agent: MSNBot schließt den Spider aus, der die Seiten für MSNs Web-Index besucht

Auf Disallow: folgt der Name der Seite oder des Ordners, die bzw. der nicht indiziert werden soll. Auch hier gilt, dass der erste Buchstabe groß geschrieben sein muss und pro Zeile nur eine Seite oder ein Ordner genannt werden dürfen. Es gibt allerdings auch einige Möglichkeiten zur Vereinfachung:

  • Disallow: indiziert alle Seiten und Ordner
  • Disallow: / indiziert nichts
  • Disallow: /test/ indiziert nur das Verzeichnis test nicht
  • Disallow: /test indiziert alle Verzeichnisse nicht, die mit test beginnen, also z.B. test, test1 oder testdaten
  • Disallow: /test/testdatei.html  indiziert nur die angegebene Datei nicht

Diese beiden Anweisungen werden von allen Agenten verstanden und decken sicher auch nahezu alle Fälle ab. Deshalb kann man weitere Anweisungen, die nur von bestimmten Agenten erkannt werden, getrost vergessen.

Kommentare werden immer mit # eingeleitet. Steht dieses Zeichen am Zeilenanfang, wird die gesamte Zeile als Kommentar betrachtet. Steht es an einer anderen Position, wird der dahinterstehende Text als Kommentar eingestuft.

Hilfe

Wer Hilfe bei der Erstellung der robots.txt braucht oder die Namen ausgefallener Agenten sucht, kann einen Generator verwenden. Und da Vertrauen ja gut, Kontrolle aber bekanntlich besser ist, kann man seine fertige robots.txt prüfen lassen.

Bookmark and Share

Verpassen Sie keinen Beitrag und abonnieren Sie unseren RSS-Feed.

1 Kommentar

Ein Kommentar zu “robots.txt erstellen”

  1. Doppelte Inhalte durch Beiträge der Nutzer » SEO- und Internet-News by TechDivision schrieb:

    [...] z.B. die Seite zur Anzeige am Bildschirm und die Druckversion, lässt sich das Problem mit einer robots.txt leicht lösen. Wenn diese doppelten Inhalte aber site-übergreifend auftreten, ist das nicht mehr [...]

Kommentar abgeben