robots.txt und XML-Sitemap: Crawling richtig steuern

Technical SEOWebsite-OptimierungPerformance
Titelbild für "robots.txt und XML-Sitemap: Crawling richtig steuern"

Eine falsch konfigurierte robots.txt kann Ihre gesamte Website aus dem Google-Index verbannen. Ich habe das einmal bei einem Kunden gesehen: Traffic von heute auf morgen auf null – weil jemand versehentlich “Disallow: /” in die robots.txt geschrieben hatte. Zwei Wochen Panik, bis alles wieder normalisiert war.

robots.txt und XML-Sitemaps sind fundamentale technische SEO-Werkzeuge. In diesem Artikel zeige ich Ihnen, was sie tun, wie Sie sie richtig einsetzen, und welche Fehler Sie unbedingt vermeiden müssen.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei im Root-Verzeichnis Ihrer Website (z.B. https://ihre-seite.at/robots.txt). Sie gibt Anweisungen an Crawler (wie den Googlebot), welche Bereiche Ihrer Website sie crawlen dürfen oder nicht.

Wichtig zu verstehen:

  • robots.txt ist eine Empfehlung, kein Gesetz. Crawler können sie ignorieren.
  • Sie verhindert Crawling, nicht Indexierung. Eine Seite kann trotz “Disallow” in Google erscheinen!
  • Jeder kann Ihre robots.txt sehen – verstecken Sie hier keine sensiblen Pfade!

Warum brauchen Sie eine robots.txt?

1. Crawl-Budget optimieren Google crawlt Ihre Website nicht unendlich. Verschwenden Sie keine Ressourcen auf unwichtige Seiten.

2. Duplicate Content vermeiden Filter-URLs, Druckversionen, Session-IDs – oft wollen Sie diese nicht im Index.

3. Temporäre Bereiche blockieren Entwicklungs- oder Staging-Umgebungen sollten nicht gecrawlt werden.

4. Admin-Bereiche schützen Ihr CMS-Login sollte nicht in Google auftauchen.

Grundlagen der robots.txt Syntax

Aufbau einer robots.txt

User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /produkte/

Sitemap: https://ihre-seite.at/sitemap.xml

Zeile für Zeile erklärt:

**User-agent: *** Gilt für alle Crawler. Sie können auch spezifische Bots ansprechen (Googlebot, Bingbot, etc.)

Disallow: /admin/ Der Pfad /admin/ und alle Unterseiten werden vom Crawling ausgeschlossen.

Allow: /produkte/ Explizit erlauben (wichtig, wenn ein übergeordneter Pfad blockiert ist).

Sitemap: … Teilt Crawlern mit, wo Ihre XML-Sitemap liegt.

Wichtige Syntax-Regeln

Wildcards:

  • * = beliebige Zeichen
  • $ = Ende der URL

Beispiele:

# Blockiert alle PDFs
Disallow: /*.pdf$

# Blockiert alle URLs mit "?" (Parameter)
Disallow: /*?

# Blockiert alle URLs die mit /temp/ beginnen
Disallow: /temp/*

Groß-/Kleinschreibung: robots.txt ist case-sensitive! /Admin/ ist nicht dasselbe wie /admin/.

Was gehört in Ihre robots.txt?

Typische Disallows für Online-Shops

User-agent: *
# Admin-Bereiche
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php

# Warenkorb und Checkout
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /kasse/

# Such- und Filterergebnisse
Disallow: /suche/
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?page=

# Session-IDs
Disallow: /*?sid=
Disallow: /*sessionid

# Interne Suche
Disallow: /*?s=
Disallow: /search?

Sitemap: https://ihr-shop.at/sitemap.xml

Typische Disallows für Blogs/Corporate Sites

User-agent: *
# CMS-Bereiche (WordPress-Beispiel)
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/

# Technische Seiten
Disallow: /cgi-bin/
Disallow: /*.php$
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/

# Temporäre/Test-Bereiche
Disallow: /staging/
Disallow: /dev/
Disallow: /test/

Sitemap: https://ihre-seite.at/sitemap.xml
Sitemap: https://ihre-seite.at/sitemap-blog.xml

Was Sie NICHT blockieren sollten

CSS und JavaScript: Früher üblich, heute ein Fehler! Google braucht CSS/JS zum Rendern.

# FALSCH - nicht so machen!
Disallow: /css/
Disallow: /js/

# RICHTIG - erlauben!
Allow: /css/
Allow: /js/

Bilder (in den meisten Fällen): Wenn Sie wollen, dass Ihre Bilder in der Google-Bildersuche erscheinen, blockieren Sie sie nicht.

Wichtige Seiten: Klingt offensichtlich, passiert aber immer wieder: Nie Ihre Hauptseiten blockieren!

Häufige robots.txt Fehler

Fehler 1: Die gesamte Website blockieren

User-agent: *
Disallow: /

Resultat: Ihre komplette Website wird vom Crawling ausgeschlossen. Google kann nichts indexieren.

Wie es passiert: Auf Staging-Servern ist das richtig. Jemand kopiert die robots.txt auf Production → Katastrophe.

Lösung: Doppelt und dreifach checken vor dem Übertragen!

Fehler 2: Verwechslung von Crawling und Indexierung

Häufige Annahme: “Wenn ich es in robots.txt blockiere, kommt es nicht in Google.”

Realität: Eine Seite kann trotzdem indexiert werden (wenn sie von anderen verlinkt wird), wird dann aber ohne Beschreibung angezeigt: “Aufgrund der robots.txt wurde keine Beschreibung für dieses Ergebnis bereitgestellt.”

Lösung: Für Indexierungs-Kontrolle nutzen Sie Meta-Tags: <meta name="robots" content="noindex">.

Fehler 3: Sensitive Pfade in robots.txt nennen

Disallow: /geheime-kundendaten/
Disallow: /admin-backup-2024/

Problem: Jeder kann Ihre robots.txt lesen! Sie weisen Hacker buchstäblich auf sensitive Bereiche hin.

Lösung: Schützen Sie solche Bereiche mit .htaccess, Passwörtern, oder Server-Konfiguration – nicht mit robots.txt.

Fehler 4: Syntaxfehler

# FALSCH:
User-agent *    # Fehlendes Doppelpunkt
Dissallow: /    # Tippfehler
Disalow: /admin # Tippfehler

Resultat: Die Zeilen werden ignoriert – im schlimmsten Fall wird etwas Wichtiges nicht blockiert oder fälschlicherweise blockiert.

Lösung: Nutzen Sie Validators (siehe unten) und testen Sie immer!

Fehler 5: Zu restriktiv

Manche Websites blockieren alles, was nicht explizit wichtig ist. Das ist oft kontraproduktiv.

Beispiel: Blog-Kommentare blockieren → Google sieht keine User-Generated-Content-Signale.

Lösung: Blockieren Sie nur, was wirklich problematisch ist.

Was ist eine XML-Sitemap?

Eine XML-Sitemap ist eine Datei, die alle wichtigen URLs Ihrer Website auflistet – wie ein Inhaltsverzeichnis für Suchmaschinen.

Beispiel (vereinfacht):

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://ihr-shop.at/</loc>
    <lastmod>2024-11-22</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://ihr-shop.at/produkte/laufschuhe/</loc>
    <lastmod>2024-11-20</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Bestandteile einer URL-Eintrag

<loc> (erforderlich) Die vollständige URL der Seite.

<lastmod> (optional) Wann wurde die Seite zuletzt geändert? Format: YYYY-MM-DD

<changefreq> (optional) Wie oft ändert sich die Seite? (always, hourly, daily, weekly, monthly, yearly, never)

<priority> (optional) Relative Wichtigkeit (0.0 bis 1.0). Nutzen Sie 1.0 für Ihre Homepage, 0.8-0.9 für wichtige Seiten, 0.5-0.7 für normale Seiten.

Wichtig: changefreq und priority sind Hinweise, keine Befehle. Google nutzt sie oft nicht.

Warum Sie eine XML-Sitemap brauchen

1. Schnellere Entdeckung neuer Seiten

Ohne Sitemap muss Google Ihre internen Links folgen. Mit Sitemap sieht Google sofort alle URLs.

2. Unterstützung bei großen Websites

1.000+ Seiten? Eine Sitemap hilft Google, den Überblick zu behalten.

3. Priorisierung

Sie signalisieren, welche Seiten wichtig sind (via priority).

4. Metadaten für besseres Crawling

lastmod hilft Google zu verstehen, welche Seiten sich geändert haben → effizienteres Crawling.

5. Voraussetzung für einige Google-Features

Google News, Google Discover – beide benötigen Sitemaps.

Sitemap erstellen: Drei Methoden

Methode 1: CMS/Shop-System (am einfachsten)

WordPress:

  • Plugin: Yoast SEO (automatisch aktiviert)
  • Plugin: Rank Math
  • Plugin: Google XML Sitemaps

Shopify:

  • Automatisch generiert unter /sitemap.xml

WooCommerce:

  • Via Yoast SEO oder Rank Math

Vorteile: Automatisch, immer aktuell, kein manueller Aufwand.

Methode 2: Online-Generatoren

Für kleine Websites (<500 Seiten):

  • XML-Sitemaps.com
  • Screaming Frog (kostenlos bis 500 URLs)

Prozess:

  1. URL eingeben
  2. Tool crawlt die Website
  3. XML-Datei herunterladen
  4. Auf Server hochladen (als /sitemap.xml)

Nachteil: Manuell, muss regelmäßig wiederholt werden.

Methode 3: Programmatisch generieren

Für Entwickler: Generieren Sie die Sitemap dynamisch via Script.

Node.js Beispiel:

// Astro-Sitemap-Integration
import sitemap from '@astrojs/sitemap';

export default {
  integrations: [
    sitemap({
      changefreq: 'weekly',
      priority: 0.7,
      lastmod: new Date(),
    })
  ]
}

Best Practices für XML-Sitemaps

1. Nur indexierbare URLs einschließen

Nicht in die Sitemap:

  • Seiten mit noindex
  • Weiterleitungen (301/302)
  • Blockierte URLs (robots.txt)
  • 404-Seiten
  • Duplicate Content

In die Sitemap:

  • Alle wichtigen, crawlbaren Seiten
  • Kanonische URLs (nicht die Varianten)

2. Aktualität wahren

Wenn Ihre Sitemap 500 tote URLs enthält, verliert Google das Vertrauen.

Lösung: Automatische Generierung via CMS oder regelmäßige manuelle Updates.

3. Große Sitemaps aufteilen

Limits:

  • Max. 50.000 URLs pro Sitemap-Datei
  • Max. 50 MB (unkomprimiert)

Bei Überschreitung: Nutzen Sie einen Sitemap-Index.

Sitemap-Index (sitemap.xml):

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://ihr-shop.at/sitemap-produkte.xml</loc>
    <lastmod>2024-11-22</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://ihr-shop.at/sitemap-blog.xml</loc>
    <lastmod>2024-11-20</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://ihr-shop.at/sitemap-kategorien.xml</loc>
    <lastmod>2024-11-15</lastmod>
  </sitemap>
</sitemapindex>

4. Kompression nutzen

Gzip-komprimierte Sitemaps (.xml.gz) werden von Google unterstützt und sparen Bandbreite.

5. In robots.txt verlinken

Sitemap: https://ihre-seite.at/sitemap.xml

Auch wenn Sie die Sitemap in der Google Search Console einreichen – hier gehört sie auch hin.

6. Verschiedene Sitemap-Typen

Standard-Sitemap: Für normale Seiten Bilder-Sitemap: Für bessere Indexierung in der Bildersuche Video-Sitemap: Für Video-Content News-Sitemap: Für aktuelle Nachrichten (Google News)

Sitemap in Google Search Console einreichen

Schritt 1: Sitemap hochladen

Stellen Sie sicher, dass Ihre Sitemap unter https://ihre-seite.at/sitemap.xml erreichbar ist.

Schritt 2: In GSC einreichen

  1. Öffnen Sie Google Search Console
  2. Wählen Sie Ihre Property
  3. Gehen Sie zu “Sitemaps” (linkes Menü)
  4. Geben Sie die Sitemap-URL ein (z.B. sitemap.xml)
  5. Klicken Sie “Senden”

Schritt 3: Status überwachen

Nach einigen Tagen zeigt GSC:

  • Erfolg: Grüner Haken, Anzahl entdeckter URLs
  • Fehler: Rotes X, Fehlerbeschreibung
  • Warnung: Gelbes Dreieck, teilweise Probleme

Häufige Fehler:

  • Sitemap nicht erreichbar (404)
  • Syntaxfehler im XML
  • Zu viele URLs
  • URLs mit noindex oder 301-Redirects

Testen: So prüfen Sie robots.txt und Sitemap

robots.txt testen

Google Search Console:

  1. Gehen Sie zu “Einstellungen” → “robots.txt-Tester”
  2. Geben Sie eine URL ein
  3. Klicken Sie “Testen”
  4. Resultat: “Blockiert” oder “Zugelassen”

Manuell:

  1. Öffnen Sie https://ihre-seite.at/robots.txt
  2. Prüfen Sie visuell auf Fehler
  3. Testen Sie verschiedene URLs gegen die Regeln

Online-Tools:

  • robots.txt Checker by Merkle
  • Technical SEO Tools Robots.txt Tester

XML-Sitemap testen

Google Search Console: Unter “Sitemaps” sehen Sie erkannte URLs und Fehler.

Online-Validators:

Manuell:

  1. Öffnen Sie https://ihre-seite.at/sitemap.xml im Browser
  2. Sollte als strukturiertes XML angezeigt werden (nicht als Download)
  3. Stichproben: Sind die URLs korrekt? Gibt es 404er?

Screaming Frog:

  1. Crawl-Modus auf “List” stellen
  2. Sitemap-URL eingeben
  3. Start → zeigt alle URLs aus der Sitemap
  4. Prüft Statuscodes, noindex, redirects

Fortgeschrittene Techniken

User-agent-spezifische Regeln

# Für Google
User-agent: Googlebot
Disallow: /keine-google-inhalte/

# Für Bing
User-agent: Bingbot
Disallow: /keine-bing-inhalte/

# Für alle anderen
User-agent: *
Disallow: /admin/

Anwendungsfall: Verschiedene Crawler unterschiedlich behandeln (selten nötig).

Crawl-Delay

User-agent: *
Crawl-delay: 10

Bittet Crawler, 10 Sekunden zwischen Requests zu warten.

Wichtig: Google ignoriert Crawl-delay! Nutzen Sie die GSC-Einstellungen stattdessen.

robots.txt für Subdomains

Jede Subdomain braucht ihre eigene robots.txt:

  • https://www.ihre-seite.at/robots.txt
  • https://shop.ihre-seite.at/robots.txt
  • https://blog.ihre-seite.at/robots.txt

Dynamische Sitemaps

Für große, sich häufig ändernde Websites: Generieren Sie die Sitemap on-the-fly.

Vorteil: Immer aktuell. Nachteil: Rechenaufwand bei jedem Request.

Kompromiss: Cache für 1-24 Stunden.

Häufige Fragen

Brauche ich eine robots.txt, wenn ich nichts blockieren will?

Nein, aber empfohlen. Eine minimale robots.txt mit Sitemap-Verweis ist sinnvoll:

User-agent: *
Disallow:

Sitemap: https://ihre-seite.at/sitemap.xml

Was, wenn ich keine robots.txt habe?

Google crawlt einfach alles, was es findet. Für kleine, unkomplizierte Sites kein Problem.

Kann ich robots.txt für einzelne Seiten nutzen?

Ja, aber umständlich:

Disallow: /diese-eine-seite.html

Besser: Nutzen Sie Meta-Tags direkt auf der Seite:

<meta name="robots" content="noindex, nofollow">

Ist die Sitemap ein Ranking-Faktor?

Nein. Aber sie hilft bei Entdeckung und Crawling → indirekt positiv.

Wie oft sollte ich die Sitemap aktualisieren?

Automatisch: Bei jedem neuen Inhalt (CMS-Plugins machen das). Manuell: Mindestens monatlich.

Muss ich die Sitemap in Bing/Yandex einreichen?

Empfohlen. Bing Webmaster Tools und Yandex Webmaster haben ähnliche Funktionen wie GSC.

Checkliste: robots.txt und Sitemap

robots.txt:

  • Liegt unter /robots.txt
  • Enthält Sitemap-Verweis
  • Blockiert Admin/Backend-Bereiche
  • Blockiert NICHT CSS/JS/Bilder
  • Blockiert NICHT wichtige Inhalte
  • Syntaktisch korrekt (via Validator geprüft)
  • In GSC getestet

XML-Sitemap:

  • Liegt unter /sitemap.xml (oder anderer stabiler URL)
  • Enthält alle wichtigen Seiten
  • Enthält KEINE noindex-Seiten
  • Enthält KEINE 404er oder Redirects
  • Unter 50.000 URLs / 50 MB
  • In robots.txt verlinkt
  • In Google Search Console eingereicht
  • Keine Fehler in GSC

Fazit: Klein, aber mächtig

robots.txt und XML-Sitemaps sind unscheinbare Textdateien – aber mit enormer Wirkung. Richtig eingesetzt, optimieren sie Ihr Crawl-Budget, beschleunigen die Indexierung, und verhindern Duplicate-Content-Probleme.

Meine Empfehlung:

  1. Erstellen Sie eine robots.txt mit sinnvollen Disallows (Admin, Warenkorb, Parameter-URLs)
  2. Nutzen Sie ein CMS-Plugin oder Tool für automatische Sitemap-Generierung
  3. Reichen Sie die Sitemap in Google Search Console ein
  4. Testen Sie alles gründlich
  5. Überprüfen Sie regelmäßig auf Fehler

Und bitte: Seien Sie vorsichtig mit robots.txt-Änderungen. Ein einziger Fehler kann Ihre gesamte Website de-indexieren. Testen Sie immer erst auf Staging!

Wenn Sie unsicher sind: Lieber eine minimalistische robots.txt als eine, die zu viel blockiert.

Viel Erfolg beim Optimieren Ihrer Crawling-Strategie!

Verwandte Artikel