HOSTtest Plus – Werde sofort benachrichtigt, wenn deine Website ausfällt

SMS Anruf E-Mail

Was ist die robots.txt und wie funktioniert sie?

Autor: HOSTTEST-Redaktion | 06.10.2021

Was ist die robots.txt Große Suchmaschinen wie Google und Microsoft Bing durchsuchen ebenso wie kleinere Anbieter - etwa DuckDuckGo - das World Wide Web (WWW) und Teile des angeschlossenen Internets mit speziellen Programmen (Crawler) permanent und automatisiert nach Inhalten, die sie indexieren und auswerten. Es existieren mehrere Möglichkeiten, um ihr Verhalten zu steuern - eine der wichtigsten und vielseitigsten neben .htaccess ist die Datei robots.txt, die es erlaubt, exakte Anweisungen zu definieren. Diese können sich wahlweise auf alle Clients beziehen oder verschiedene Suchmaschinen benennen, um diesen individuelle Einstellungen zu diktieren. Wegen ihrer Aufgabe und den verfügbaren Optionen spielt die robots.txt eine wichtige Rolle für die SEO, aber auch um zum Beispiel Teile einer Webseite von anderen zu trennen oder bestimmte Dateien vor Suchmaschinen zu verstecken.

Woraus besteht die Datei robots.txt?
Welche Aufgabe übernimmt die robots.txt Datei?
Wie funktioniert eine robots.txt Datei und wie wirkt sie sich aus?
Was ist bei der Erstellung einer robots.txt Datei zu beachten?
Wie sieht eine robots.txt aus?

Woraus besteht die Datei robots.txt?

Bei der robots.txt handelt es sich um eine einfache Textdatei, in der sich Anweisungen in einer lesbaren Form befinden. Die Erstellung ist daher ohne Probleme mit einem simplen Texteditor wie gedit oder mousepad unter Linux oder Notepad unter Microsoft Windows möglich. Der Inhalt besteht aus mehreren Zeilen, die sich entweder auf einen einzelnen Crawler wie den googlebot beziehen oder universell für alle Besucher gelten können. Dabei enthält jeder Eintrag mindestens zwei Angaben, die durch einen Zeilenumbruch voneinander getrennt werden: An der ersten Position definiert die robots.txt, auf welche Suchmaschinen sich die folgenden Anweisungen beziehen. In einer neuen Zeile folgen anschließend einzelne Details über die Art und Weise, auf die eine Suchmaschine die Webseite durchsuchen und indexieren soll.

Welche Aufgabe übernimmt die robots.txt Datei?

Generell bietet die robots.txt vier verschiedene Optionen, die sich miteinander kombinieren lassen:

Allow: Erlaubnis zum Durchsuchen festgelegter Teile einer Webseite
Disallow: Blockierung des Zugriffs auf bestimmte Pfade oder DateienAllow:
Sitemap: Hinweis auf eine externe Datei mit Anweisungen, wie eine Webseite durchsucht werden soll
Crawl-Delay: Verzögerung des Aufrufs zwischen einzelnen Unterseiten (nur einige Crawler)

Der Sinn einer robots.txt liegt darin, dass der Inhaber einer Webseite den Traffic steuern kann, der ihm durch die Suchmaschinen entsteht. Dies ist speziell bei großen Seiten oder solchen mit einer stark verzweigten Struktur sinnvoll und hilfreich, kann sich allerdings beispielsweise bei einem kleinen Webhosting oder einem virtuellen Server mit geringer Performance positiv auswirken. Darüber hinaus erweist sich die robots.txt als nützlich, um gezielt große Dateien wie etwa Videos oder andere multimediale Inhalte von dem Abruf durch Suchmaschinen auszuschließen, um die Bandbreite zu reduzieren und einen minimalen Traffic zu generieren. Da Suchmaschinen wie der googlebot bei ihrem Vorgehen wertfrei operieren - also keine Präferenzen bei der Indexierung festlegen oder selbst eine Blockierung von Inhalten vornehmen - bietet die robots.txt eine komfortable Möglichkeit, diese zu steuern. Über eine Sitemap lassen sich darüber hinaus ebenfalls Prioritäten für einzelne Unterseiten festlegen, damit zum Beispiel Inhalte, die sich häufig ändern, öfter und rascher als statische Informationen durchsucht und indexiert werden.

Wie funktioniert eine robots.txt Datei und wie wirkt sie sich aus?

Wenn eine Suchmaschine durch einen ihrer Crawler eine Webseite aufruft, folgt dieser automatisch jedem identifizierbaren Link und ruft die darunter gelagerten Inhalte ab, um sie zu analysieren und nach dem eigenen Algorithmus zu bewerten. Als erste Datei versucht sie dabei, eine robots.txt im Wurzelverzeichnis - also im untersten Pfad einer Domain - zu finden, um Informationen über das erwünschte Vorgehen zu erhalten. Aus diesem Grund muss sie zwingend direkt unter der Adresse der Webseite abgespeichert werden und sich zum Beispiel unter www.example.org/robots.txt oder example.com/robots.txt finden.

Erlaubt das Webhosting dem Nutzer keinen Zugriff auf diesen Bereich, weil es zum Beispiel eine Struktur wie https://anbieter.com/Kunde verwendet, kann leider keine robots.txt eingesetzt werden. Es ist allerdings möglich, eine externe Domain zu reservieren und auf diesen Webspace zu verlinken, so dass eine Umleitung entsteht. In diesem Fall würden sich die Einstellungen allerdings lediglich für diese Präsenz auswirken, indem zum Beispiel example.com mit http://anbieter.com/example verknüpft wird und die robots.txt für die erste Domain gilt, nicht jedoch für die zweite.

Darüber hinaus ist unbedingt zu bedenken, dass es sich bei der robots.txt um keine offizielle oder verbindliche Norm, sondern um den unabhängig entwickelten Robots Exclusion Standard handelt, der im Sommer 2008 von internationalen Konzernen wie Google, Microsoft und Yahoo übernommen wurde. Die Beachtung der vorgegebenen Regeln erfolgt ausschließlich auf einer freiwilligen Basis und ist nicht verpflichtend, obwohl mittlerweile alle großen Unternehmen sie respektieren. Es ist aus diesem Grund wichtig, ausdrücklich darauf hinzuweisen, dass eine robots.txt Datei keine effektive Blockierung für alle Suchmaschinen und erst recht nicht für einen Zugriff von außen etwa bei kriminellen Absichten darstellt. Darüber hinaus ist jeder Crawler wie der googlebot oder der von Microsoft verwendete bingbot unterschiedlich programmiert und unterstützt nicht unbedingt alle Befehle über Disallow hinaus. So ist zum Beispiel Crawl-Delay nicht mit dem googlebot kompatibel, einige Suchmaschinen wie die russische Yandex oder die aus China stammenden Baidu und Sogou ignorieren ebenfalls Allow-Regeln und interpretieren ausschließlich Disallow.

Was ist bei der Erstellung einer robots.txt Datei zu beachten?

Die Erstellung einer robots.txt ist zwar prinzipiell mit jedem Texteditor möglich - um eine maximale Kompatibilität zu gewährleisten, empfiehlt es sich jedoch, den von Microsoft Windows abweichenden Standard von Linux zu verwenden. Dieser unterscheidet sich speziell in dem verwendeten Sonderzeichen für einen Zeilenumbruch und wird von kostenfreien Freeware-Programmen wie Notepad++ unterstützt.

Die Datei selbst besteht aus einem oder mehr Absätzen, die von einer Leerzeile getrennt werden und verschiedene Anweisungen für bestimmte Crawler enthalten. Jede von ihnen beginnt mit der Angaben User-agent:, die genau definiert, an welchen Bot sich die Anweisungen richten. Die häufigsten im Internet und WWW aktiven, legalen Crawler sind:

*: Dieser Platzhalter (Wildcard) steht für alle Crawler
Googlebot: der häufigste und aktivstes Crawler
Bingbot: der von Microsoft seit 2010 anstellen von msnbot verwendete Crawler
Slurp: von Yahoo vor allem für die Erfassung der mobilen Suchen verwendeter Crawler
DuckDuckBot: der Crawler der auf Anonymität ausgerichteten Suchmaschine DuckDuckGo
Baiduspider: der Crawler der größten chinesischen Suchmaschine Baidu
YandexBot: wird von der russischen Sichmaschine Yandex genutzt
FaceBot: ist der Crawler von Facebook und wird nur bei Links aus der Plattform hinaus aktiv
ia_archiver: stammt von Amazon Alexa und erfasst vor allem statistische Informationen

Neben diesen "offiziellen" Crawlern, die sich den Richtlinien der robots.txt unterwerfen (falls sie diese unterstützen), existieren ebenfalls Anbieter, die sich nicht um solche Vorgaben kümmern beziehungsweise sie bewusst ignorieren. Zu diesen zählen zum Beispiel der PetalBot oder der DotBot - um eine effiziente Blockierung zu erreichen, muss hier der Umweg über die Erstellung einer .htaccess Datei erfolgen, durch die Crawlers gezielt über ihre Identifizierung als User-agent umgeleitet oder abgewiesen werden.

Wie sieht eine robots.txt aus?

Jede robots.txt besteht aus einem oder mehreren Blöcken, die ein Crawler chronologisch liest und die für ihn geltenden Regeln anwendet. Wie in vielen Programmiersprachen erlaubt es das Symbol Raute # dabei, Kommentare einzufügen, die nicht als Code interpretiert werden. Einige Beispiele für eine robots.txt sehen folgendermaßen aus:

Beispiel 1:

User-agent: *
# Blockiert alle Crawler
Disallow: /privat/
# Verbietet Zugriff auf das Verzeichnis /privat und alle Unterverzeichnisse
Allow: /website/
# Erlaubt explizit den Zugriff auf /website und alle Unterverzeichnisse

Beispiel 2:

User-agent: Googlebot
User-agent: Bingbot
# Block gilt nur für Google und Microsoft Bing
Allow: /website/
# Google und Bing dürfen Website indexieren
Disallow: /website/privat
# Blockierung aller Verzeichnisse oder Dateien, die mit privat beginnen

User-agent: *
# Sperrt alle anderen Bots aus
Disallow: /
# Verbietet Zugriff auf die gesamte Domain

Wichtig sind einige eindeutige Regeln, die in einer robots.txt beachtet werden müssen:

Die robots.txt muss im Wurzelverzeichnis / einer Domain liegen
Groß- und Kleinschreibung werden nicht unterschieden
Bots müssen exakt und namentlich benannt werden
Leerzeichen in einer Zeile sind ausschließlich hinter dem : erlaubt
Jede robots.txt darf maximal einen Block für alle Crawler (*) enthalten
Der erste auf einen Crawler zutreffende Eintrag wird ausgewertet
Ein Disallow: ohne weitere Angabe erlaubt alles
Platzhalter wie * werden von einigen, nicht aber allen Crawlern unterstützt
Der Eintrag /privat/ bezieht sich auf ein Verzeichnis, /privat auf alle Verzeichnisse und Dateien, die mit privat beginnen

Da es sich um eine relativ kleine und überschaubare Datei handelt, lässt sich eine robots.txt problemlos etwa über einen SSH-Zugriff direkt auf einem Webhosting erstellen oder bearbeiten. Eine Alternative besteht darin, diese lokal zu erstellen und über FTP oder ein Webinterface auf das / - Verzeichnis hochzuladen.

Foto: Free-Photos auf Pixabay

Schreibe einen Kommentar

Tags zu diesem Artikel

HTTP

Weitere Webhoster

Weitere interessante Artikel

HTTP Error 410 - So entfernt man Inhalte schnell aus Google & Co

HTTP Error 410 soll Nutzern und Suchmaschinen dienen und ihnen den Status Gone übermitteln. Wie das geht verraten wir.

http Error 522 - Connection timed out - so behebst du den Fehler

Der Fehler http Error 522 - Connection timed out - so behebst du den Fehler.

HTTP 504 Gateway Timeout: Ursache und Lösung der Fehlermeldung 504

Wir erklären den Server Fehler 504 inkl. Lösungsansätzen. Wir helfen weiter!

Was ist der http Request? Einfach erklärt

Wir erklären euch einfach was ist ein http Request ist.

HTTP Fehler 400: Wo liegen die Ursachen und die Lösung?

HTTP Fehler 400. Wir zeigen euch wie ihr den Fehler lösen könnt.

HTTP Error 502 - wodurch entsteht er und was ist die Lösung?

HTTP Error 502 legt eure Website lahm? Wir zeigen euch wo durch er entsteht und wie ihr den Fehler behebt.

Webhoster im Fokus Anzeige

"Bewertung: passt scho'"

133 Bewertungen

Aktuelle Ausschreibungen

Full Rack Colocat...
Vor kurzem Beendet

vServer unmanaged...
Vor kurzem Beendet

Webhosting & Doma...
Vor kurzem Beendet

E-Mail Hosting mi...
Vor kurzem Beendet

Neueste Bewertungen

Reinhard J. hat hosttech Schweiz bewertet

Monica W. hat RACK26 bewertet

Elhedi B. D. hat Alfahosting GmbH bewertet

Hilmar G. hat Webspace-Verkauf.de bewertet

Man7 hat Pixel X e.K. bewertet

Julian W. hat RACK26 bewertet

Hans S. hat RACK26 bewertet

Yigit K. hat Pixel X e.K. bewertet

Lisa P. hat helloly GmbH bewertet

Stefan B. hat ServMedia.de bewertet

Wolfgang S. hat helloly GmbH bewertet

Dustin R. hat Cloud86 bewertet

Luise H. hat Cloud86 bewertet

Mathias K. hat manitu bewertet

Michael D. hat Profi Webspace UG bewertet

I. S. hat STRATO GmbH bewertet

Ralf J. hat LA Webhosting bewertet

Christian F. hat IONOS bewertet

Gerhard S. hat Trooper.AI bewertet

Thomas H. hat LA Webhosting bewertet

Mediapartner:

Über hosttest

Im Jahr 2006 riefen wir hosttest ins Leben, um den Webhosting Markt im DACH-Raum transparenter zu machen. Mit derzeit über 400 Webhostern und über 10.000 Angeboten bieten wir dir die beste Grundlage, den für dich passenden Anbieter für Hosting-Leistungen zu finden.

Seit 2015 küren wir zudem alljährlich unsere Webhoster des Jahres und würden uns in Zukunft auch über deine Stimme freuen.
Mehr über uns...

Neueste Startseiten-News

RACK26 bietet kostenlose Malware-Bere...

26.06.2026

Selbst gehostete KI und die EU KI Ver...

25.06.2026

Cloud86 stellt NOA vor: Intelligenter...

24.06.2026

HTTP Monitoring einrichten: So behält...

24.06.2026

Neueste Webhoster

Beliebteste Webhoster

Service

Jobs
Wer hostet wen?
Soziales Engagement
Unsere Testmethodik
Probleme mit deinem Webhoster?
Über uns
Als Anbieter registrieren
Webhoster des Jahres
Neueste Bewertungen
Alle Webhoster
Webhoster-Lexikon

Was ist die robots.txt und wie funktioniert sie?

Screen resolution less than 1400px