geschrieben von Marion Engel am 29. September 2008 um 7:00 Uhr
Für manche Webmaster scheint die robots.txt noch immer ein Buch mit sieben Siegeln zu sein. Aber dafür gibt es eigentlich keinen Grund, denn es gibt nur wenige Regeln, die man kennen muss, um eine korrekte robots.txt zu erstellen. Und die wären:
Sinn und Zweck
Mit der robots.txt kann gesteuert werden, welche Seiten einer Website von welchen Agenten nicht besucht werden dürfen. Wichtige Agenten sind die Spider der Suchmaschinen, die die Seiten indizieren müssen, um sie in den Suchergebnissen anzeigen zu können. Andere Agenten sind eher mit unlauteren Absichten im Web unterwegs und versuchen vor allem Mailadressen aus dem Web zu saugen, um sie kurz darauf mit Spam-Mails zu bombardieren. Man findet im Web zwar etliche Listen solcher unerwünschten Agenten. Ob es aber hilfreich ist, sie in der robots.txt auszuschließen, darf bezweifelt werden. Denn einerseits können die heute bekannten Namen schon morgen veraltet und durch neue Namen ausgetauscht worden sein. Und andererseits ist davon auszugehen, dass Agenten, die mit unguten Absichten auf Besuch kommen, natürlich auch “Verbotsschilder” wie die robots.txt ignorieren.
Welche Seiten wird man üblicherweise von der Indizierung ausschließen?
Gerade in Bezug auf den letzten Punkt muss aber betont werden, dass die robots.txt keine Zugriffskontrolle übernimmt. Geschützte Seiten müssen durch Passwortmechanismen vor unerwünschten Zugriffen geschützt werden. Und andersherum ist eine robots.txt-Datei keine Garantie für eine gute Position in den Suchergebnissen.
Erstellung und Name
Um eine funktionsfähige robots.txt-Datei zu erstellen, benötigt man einen Texteditor. Ein solcher ist standardmäßig auf jedem Windows-Rechner vorhanden. Die Datei muss unter dem Namen robots.txt gespeichert werden, wobei Gross- und Kleinschreibung zu beachten sind.
Speicherplatz
Die Datei muss auf den Webserver übertragen werden und auf der obersten Ebene der Domain gespeichert werden. Sie muss also neben der index.html stehen. Wenn man im Browser www.<domainname>/robots.txt eingibt und die Inhalte zu sehen sind, liegt die Datei im richtigen Verzeichnis.
Inhalt
Die robots.txt enthält zwei Arten von Anweisungen:
Auf User-agent: folgt der Name des betreffenden Agenten, der vom Besuch ausgeschlossen werden soll. Für jeden namentlich genannten Agenten muss eine eigene Zeile geschrieben werden, die immer mit einem Großbuchstaben beginnen muss.
Auf Disallow: folgt der Name der Seite oder des Ordners, die bzw. der nicht indiziert werden soll. Auch hier gilt, dass der erste Buchstabe groß geschrieben sein muss und pro Zeile nur eine Seite oder ein Ordner genannt werden dürfen. Es gibt allerdings auch einige Möglichkeiten zur Vereinfachung:
Diese beiden Anweisungen werden von allen Agenten verstanden und decken sicher auch nahezu alle Fälle ab. Deshalb kann man weitere Anweisungen, die nur von bestimmten Agenten erkannt werden, getrost vergessen.
Kommentare werden immer mit # eingeleitet. Steht dieses Zeichen am Zeilenanfang, wird die gesamte Zeile als Kommentar betrachtet. Steht es an einer anderen Position, wird der dahinterstehende Text als Kommentar eingestuft.
Hilfe
Wer Hilfe bei der Erstellung der robots.txt braucht oder die Namen ausgefallener Agenten sucht, kann einen Generator verwenden. Und da Vertrauen ja gut, Kontrolle aber bekanntlich besser ist, kann man seine fertige robots.txt prüfen lassen.
Verpassen Sie keinen Beitrag und abonnieren Sie unseren RSS-Feed.
10. November 2008 um 14:14
[...] z.B. die Seite zur Anzeige am Bildschirm und die Druckversion, lässt sich das Problem mit einer robots.txt leicht lösen. Wenn diese doppelten Inhalte aber site-übergreifend auftreten, ist das nicht mehr [...]