robots.txt – Suchmaschinenverhalten für die eigene Webseite definieren
Es gibt für Suchmaschinen den Codex sich an den Meta-Tag robots bzw. an die Datei robots.txt beim Indizieren einer Seite zu halten. Über diese beiden Möglichkeiten kann man gezielt steuern welche Seiten von Suchmaschinen erfasst werden und welche nicht. Es ist auch die Kombination von robots.txt und Meta-Tags möglich, hier muss allerdings auf Abhängigkeiten geachtet werden.
robots.txt
Die Datei robots.txt muss im Root-Verzeichnis des Webservers liegen und damit unter http://www.domain.com/robots.txt erreichbar sein.
Alle Robots zulassen
User-agent: *
Disallow:
Alle Robots aussperren
User-agent: *
Disallow: /
Einen Robot aussperren
User-agent: Googlebot
Disallow: /
Alle Robots aussperren und einen zulassen
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
eine Seite ausnehmen
User-agent: *
Disallow: /page.htm
bestimmte Dateien ausnehmen
User-agent: *
Disallow: /file.*
Disallow: /*.doc$
ein Verzeichnis ausnehmen
User-agent: *
Disallow: /folder/
bestimmte Verzeichnisse ausnehmen
User-agent: *
Disallow: /files_*/
ein Verzeichnis ausnehmen aber eine Seite darin zulassen
User-agent: *
Disallow: /folder/
Allow: /folder/dfile.htm
Meta-Tag
Mit Hilfe des Meta-Tag robtos im Header kann das Verhalten von Suchmaschinen beeinflusst werden.
Seite nicht indizieren
<meta name="robots" content="noindex, nofollow" />
Seite indizieren
<meta name="robots" content="index, follow" />
Siete indizieren, aber Links nicht folgen
<meta name="robots" content="index, nofollow" />