Effektiver Umgang mit der robots.txt-Datei

Eine Anleitung zum Hinzufügen einer robots.txt-Datei zu Ihrer Site

By azhag 14 Min Read

Haben Sie sich schon einmal gefragt, wie Sie Ihrer Site eine robots.txt-Datei hinzufügen? Nicht viele Webmaster wissen das, aber Sie haben tatsächlich die vollständige Kontrolle darüber, wer Ihre Site crawlt und indexiert, sogar bis hin zu einzelnen Seiten. Die robots.txt-Datei – auch bekannt als Robots Exclusion Protocol oder Standard – ist eine winzig kleine Datei, die Teil jeder Website im Web ist. Aber die meisten Leute wissen nicht einmal von ihrer Existenz.

Die robots.txt-Datei ist speziell für die Arbeit mit Suchmaschinen konzipiert. Aber Untersuchungen haben gezeigt, dass diese winzige Datei eine hervorragende Quelle für SEO-Saft ist, der nur darauf wartet, freigeschaltet und angezapft zu werden.

Wenn Sie Ihre SEO verbessern möchten, ohne sich zu verbiegen, müssen Sie wissen, wie Sie Ihrer Site eine robots.txt-Datei hinzufügen.

Aber vorher beginnen wir mit der folgenden Frage: Was bedeutet eine robots.txt-Datei?

Was bedeutet die Datei Robots.txt?

Eine robots.txt-Datei ist eine reine Text- oder ASCII-Datei, die ein Webmaster auf seiner Website platzieren kann. Diese einfache Textdatei befindet sich im Stammverzeichnis Ihrer Website. Sie weist Suchmaschinen-Robots – auch Spider genannt – an, wo oder welche Seiten auf Ihrer Website gecrawlt werden sollen und welche Seiten ignoriert oder nicht gecrawlt werden sollen.

Das ist äußerst wichtig, sonst wird jede einzelne Datei und Seite Ihrer Website sofort in den Suchmaschinenergebnissen angezeigt. Deshalb müssen Sie lernen, wie man eine robots.txt-Datei erstellt. Damit haben Sie die volle Kontrolle darüber, wie Google, Bing, Yahoo und andere Suchmaschinen Ihre Website sehen.

Die Debatte unter SEO-Gurus, die behaupten, dass eine robots.txt-Datei auf einer Website Suchmaschinen-Spider deutlich anziehen kann, ist noch nicht abgeschlossen. Viele von ihnen behaupten, dass dies wiederum zu einer Verbesserung der Suchmaschinenpositionierung führt.

Sie müssen die robots.txt-Datei jedoch in Ihrem Stammverzeichnis verwenden, da dies das Crawling deutlich verbessern und sich auf die SEO auswirken kann. Damit dies geschieht, müssen Sie wissen, wie Sie eine hochwirksame robots.txt-Datei erstellen.

Eine kurze Geschichte der Robots.txt-Datei

In den frühen Tagen des Internets erfanden Ingenieure und Programmierer kreative „Spider“ oder „Roboter“, um Seiten im Web zu crawlen und dann zu indexieren. Diese Roboter wurden als „User-Agents“ bezeichnet.

Gelegentlich finden diese Roboter oder Spider ihren Weg auf Seiten, die Websitebesitzer nicht indexiert haben wollten. Beispielsweise wurden private Websites oder solche im Aufbau indexiert. Das war ein Problem, das dringend einer Lösung bedurfte.

Da kam ein niederländischer Ingenieur und Erfinder der weltweit ersten Suchmaschine namens Aliweb, Martijn Koster, ins Spiel. Der Ingenieur schlug schnell einen klar definierten Satz von Standards vor, an die sich jeder Roboter strikt halten müsste. Diese Standards wurden erstmals im Februar 1994 vorgeschlagen.

Am 30. Juni 1994 einigten sich die frühen Webpioniere und mehrere Roboterautoren auf die vorgeschlagenen Standards. Die Standards wurden damals als REP („Robots Exclusion Protocol“) angenommen.

Die robots.txt ist eine kreative Implementierung dieses Protokolls. Das Robots Exclusion Protocol definiert den Algorithmus oder die Verfahren, die jeder legitime Spider oder Crawler einhalten oder befolgen muss.

Wenn die robots.txt-Datei Bots anweist, eine bestimmte Webseite nicht zu indizieren, muss jeder legitime Roboter – vom Googlebot bis zum MSNbot – dieser Anweisung folgen.

Bedenken Sie, dass einige betrügerische Roboter – z. B. Spyware, Malware, E-Mail-Harvester usw. – diese festgelegten Protokolle nicht befolgen oder nicht befolgen. Aus diesem Grund kann es sein, dass Sie Bot-Verkehr auf Seiten sehen, die Sie bereits über die robots.txt-Datei blockiert haben.

Außerdem befolgen einige Roboter die REP-Standards nicht und werden nicht für fragwürdige Zwecke verwendet.

Um die robots.txt-Datei einer Website anzuzeigen, rufen Sie die folgende URL auf:

Wie Robots.txt funktioniert

Wie bereits erwähnt, weist Ihre robots.txt-Datei Suchmaschinen an, die Webseiten auf Ihrer Website schnell zu crawlen.

Robots.txt-Dateien bestehen aus zwei Hauptkomponenten:

User-Agent: Diese Komponente definiert schnell den Webbot oder die Suchmaschine, für die eine Regel gilt. Sie können ein Sternchen (*) als Platzhalter zusammen mit User-Agent verwenden, um alle Suchmaschinen einzuschließen.
Disallow: Diese Komponente weist eine Suchmaschine – das kann eine der zahlreichen sein – an, eine Seite, Datei oder ein Verzeichnis nicht zu crawlen und zu indexieren.

Folgendes sollten Sie beachten: Um eine bestimmte Datei in Ihrem Dateimanager zu blockieren, müssen Sie die Datei so anpassen, dass sie auf einer Ihrer Domänen gehostet wird. Fügen Sie dann die Datei-URL zu Ihrer robots.txt-Datei hinzu.

Nachdem das geklärt ist, funktioniert robots.txt folgendermaßen:

Alle Suchmaschinen haben zwei Hauptaufgaben:

  • Das Web crawlen, um hochrelevante Inhalte zu entdecken.
  • Indexieren Sie den gefundenen Inhalt, damit er Online-Suchern, die nach bestimmten Informationen suchen, problemlos bereitgestellt werden kann.

Um Websites zu crawlen, folgen Suchmaschinen bereitwillig Links, um von einer Website zur nächsten zu gelangen. Am Ende crawlen sie mehrere Milliarden Websites und Links. Dieses Crawling-Verhalten wird – manchmal – als „Spidering“ bezeichnet.

Das erste, was der Suchcrawler tut, sobald er auf einer Website ankommt – bevor er sie durchsucht – ist, nach einer robots.txt-Datei zu suchen. Wenn der Crawler eine findet, liest er schnell zuerst diese robots.txt-Datei, bevor er die Webseite weiter durchsucht.

Da eine robots.txt-Datei spezifische Informationen darüber enthält, wie die Suchmaschine die Site crawlen soll, sind es die darin enthaltenen Informationen, die weitere Crawler-Aktionen auf dieser bestimmten Website anweisen.

Wenn die robots.txt-Datei keine Anweisungen enthält, die eine wichtige Aktivität eines User-Agents unterbinden könnten – oder wenn die Website nicht über eine robots.txt-Datei verfügt –, fährt der Suchcrawler mit dem Crawlen anderer wichtiger Informationen auf der Website fort.

Warum die Robots.txt-Datei von entscheidender Bedeutung ist

Robots.txt ist für keine Website wirklich ein sehr wichtiges Dokument. Tatsächlich kann Ihre Website auch ohne diese Datei, die in Ihrem Stammverzeichnis liegt, einwandfrei ranken und wachsen.

Die Verwendung von robots.txt bringt jedoch mehrere Vorteile mit sich, die Sie als Websitebesitzer nutzen sollten:

Kontrolliert die Ressourcennutzung

Jedes Mal, wenn ein Bot Ihre Website crawlt, verbraucht er einen Teil Ihrer Bandbreite sowie Serverressourcen. Diese Ressourcen sollten besser für echte menschliche Besucher eingesetzt werden.

Bei Websites mit viel Inhalt kann dies leicht die Kosten erhöhen und echten Benutzern oder Besuchern ein schlechtes Surferlebnis bieten.

Sie können die Datei robots.txt jedoch verwenden, um den Zugriff auf unwichtige Bilder, Skripte usw. zu blockieren und so Ressourcen zu sparen.

Priorisieren Sie wichtige Seiten

Ihr Hauptziel ist es, sicherzustellen, dass Suchmaschinen-Spider alle wichtigen Seiten Ihrer Website crawlen, einschließlich Inhaltsseiten usw. Und nicht so viele Ressourcen für die Suche nach nutzlosen Seiten wie Ergebnissen aus dedizierten Suchanfragen zu verschwenden.

Indem Sie diese nutzlosen Seiten blockieren, können Sie ganz einfach priorisieren, auf welche bestimmten Seiten sich die Suchmaschinen-Bots konzentrieren sollen.

Verhindern Sie, dass Bots private Ordner crawlen

Wenn Sie Bots das Crawlen privater Ordner auf Ihrer Website verbieten, wird es für Suchmaschinen-Spider schwieriger, diese zu indizieren.

Was können Sie mit Robots.txt verbergen?

Sie wissen bereits, dass robots.txt-Dateien im Allgemeinen verwendet werden, um bestimmte Kategorien, Verzeichnisse oder Seiten von den Suchmaschinen-Ergebnisseiten (SERPs) auszuschließen.

Sie können diese mit der Anweisung „Disallow“ ausschließen. Zu den wenigen, aber häufig vorkommenden Seiten, die Sie mit einer robots.txt-Datei verbergen können, gehören:

  • Admin-Seiten
  • Paginierungsseiten
  • Warenkorb
  • Seiten mit doppeltem, oft druckerfreundlichem Inhalt.
  • Dynamische Service- und Produktseiten
  • Chats
  • Kontoseiten
  • Danke-Seiten

Nehmen wir beispielsweise an, Sie möchten eine „Danke“-Seite verbieten. So gehen Sie vor:

User-agent: *

Sitemap: https://IhrDomainname.com/sitemap.xml

Disallow: /videos/

Disallow: /thank-you/

Hier muss erwähnt werden, dass nicht alle Suchmaschinen-Crawler Ihrer robots.txt-Datei folgen. Schädliche Bots können Ihre robots.txt-Dateien problemlos oder vollständig ignorieren. Achten Sie deshalb darauf, keine hochsensiblen Daten auf gesperrten Seiten zu speichern.

Wie fügen Sie Ihrer Site eine Robots.txt-Datei hinzu?

In diesem Abschnitt sehen wir uns an, wie Sie Ihrer Site eine robots.txt-Datei hinzufügen. SEO-Gurus empfehlen immer, Ihrer primären Domain sowie allen Subdomains Ihrer Website eine robots.txt-Datei hinzuzufügen.

Um Ihrer Website eine robots.txt-Datei hinzuzufügen, müssen Sie sie zunächst erstellen. Folgen Sie dem unten beschriebenen Schritt-für-Schritt-Prozess:

Schritt 1: Öffnen Sie Microsoft Word oder Notepad auf Ihrem Computer und stellen Sie sicher, dass Sie alle Dateien als „Robots“ speichern. Sie müssen in Kleinbuchstaben geschrieben sein. Wählen Sie .txt als Dateityperweiterung, aber wählen Sie „Nur Text“, wenn Sie Microsoft Word als Texteditor verwenden.

Schritt 2: Fügen Sie dann diese 2 Textzeilen zu Ihrer Datei hinzu:

User-Agent: *

Disallow:

„User-Agent“ ist ein anderes Wort für Suchmaschinen-Spider/Crawler oder Robots. Das Sternchen (*) bedeutet, dass diese Zeile für alle Suchmaschinen-Spider gilt. Wie Sie sehen, ist in der Zeile „Disallow“ weder ein Ordner noch eine Datei aufgeführt.

Das bedeutet, dass auf jedes Verzeichnis Ihrer Website zugegriffen wird. Dies ist die grundlegende robots.txt-Datei.

Schritt 3: Eine der Optionen der robots.txt-Datei hat damit zu tun, den Spidern den Zugriff auf jeden Zentimeter Ihrer Website zu verwehren. Sie können dies tun, indem Sie der robots.txt-Datei die folgenden Zeilen hinzufügen:

User-agent: *

Disallow: /

Schritt 4: Wenn Sie den Spidern den Zugriff auf bestimmte Bereiche Ihrer Website verwehren möchten, kann Ihre robots.txt folgendermaßen aussehen:

User-agent: *

Disallow: / database/

Disallow: /scripts/

Die drei oben aufgeführten Zeilen informieren alle Robots darüber, dass sie auf nichts in den Skript- und Datenbankverzeichnissen oder sogar Unterverzeichnissen zugreifen können.

Bedenken Sie, dass pro Zeile „Disallow“ nur 1 Ordner oder Datei verwendet werden kann. Sie können so viele „Disallow“-Zeilen hinzufügen, wie Sie benötigen.

Schritt 5: Achten Sie darauf, dass Sie auch Ihre suchmaschinenfreundliche XML-Sitemap-Datei zur robots.txt-Datei hinzufügen. Dadurch wird sichergestellt, dass die Roboter Ihre Sitemap leicht finden und alle Seiten Ihrer Website schnell indizieren können.

Verwenden Sie die folgende Syntax, um Ihre XML-Sitemap hinzuzufügen:

Sitemap: http://www.IhrDomainname.com/sitemap.xml

Schritt 6: Sobald alles abgeschlossen ist, speichern Sie Ihre robots.txt-Datei und laden Sie sie dann in das Stammverzeichnis Ihrer Website hoch.

Wenn Ihre Domain beispielsweise „www.meinDomainname.com“ ist, platzieren Sie die robots.txt-Datei unter:

www.meinDomainname.com/robots.txt

Und so fügen Sie Ihrer Site eine robots.txt-Datei hinzu!

Allgemeine Robots.txt-Anweisungen, die Sie kennen und verwenden sollten

User-agent: * – Dies ist normalerweise die erste Zeile in Ihrer robots.txt-Datei. Ihr Hauptzweck besteht darin, den Suchmaschinen-Spidern die zahlreichen Regeln zu erklären, die ein Webmaster von ihnen auf seiner Website crawlen lassen möchte.

Disallow: / – Dies weist Spider an, nicht Ihre gesamte Website zu crawlen.

Disallow: – Dies weist alle Spider an, Ihre gesamte Website zu crawlen.

Disallow: /ebooks/* .pdf – Dies weist Spider an, alle PDF-Formate zu ignorieren, die zu Problemen mit doppelten Inhalten führen können.

Disallow: /staging/ – Dies weist Suchmaschinen-Crawler an, Ihre Staging-Site zu ignorieren.

Disallow: /images/ – Dies weist nur den Googlebot-Spider an, alle Bilder auf Ihrer Website zu ignorieren.

  • – Dies gilt als Platzhalter, der eine beliebige Zeichenfolge darstellt.

$ – Dieses Zeichen wird verwendet, um das Ende der URL abzugleichen.

Wann Sie Robots.txt nicht verwenden sollten

Die robots.txt-Datei kann ein nützliches Tool sein, wenn sie intelligent verwendet wird. Sie ist jedoch möglicherweise nicht die beste Option oder Lösung. Hier sind einige Beispiele, wann Sie robots.txt nicht verwenden sollten, um das Crawling von Suchmaschinen zu steuern:

  • Blockieren von ULR-Parametern
  • Blockieren von JavaScript/CSS
  • Deindexieren bereits indexierter Seiten
  • Blockieren von URLs mit Backlinks
  • Festlegen spezifischer Regeln, die Crawler sozialer Netzwerke ignorieren.
  • Blockieren des Zugriffs direkt von Entwicklungs- oder Staging-Sites usw.

Die robots.txt-Datei bleibt ein wertvoller Verbündeter, da sie die Art und Weise beeinflusst, wie Suchmaschinen-Bots oder -Crawler mit Ihrer Website interagieren.

Bei richtiger Verwendung kann robots.txt Ihre Rankings positiv beeinflussen und so das Crawlen Ihrer Website erheblich erleichtern.

Mit diesem Leitfaden haben Sie bereits die Antwort auf die Frage: „Was bedeutet eine robots.txt-Datei?“ Und Sie wissen auch, wie Sie Ihrer Site eine robots.txt-Datei hinzufügen.

Hoffentlich wissen Sie jetzt auch, wie Sie Ihrer Site eine robots.txt-Datei hinzufügen und wie Sie bei der Verwendung dieser einfachen Textdatei einige Fehler vermeiden.

Verwenden Sie die robots.txt-Datei daher mit Bedacht und holen Sie so viel SEO-Power wie möglich auf Ihre Website!

Share This Article
Leave a comment