Die robots.txt ist eine einfache Textdatei, mit der du Suchmaschinen-Bots steuerst. Sie legt fest, welche Bereiche eines Shops gecrawlt werden dürfen und welche nicht. Für Onlineshops ist das besonders wichtig, da durch Filter, Parameter oder interne System-URLs schnell tausende bis Millionen irrelevanter URL-Kombinationen entstehen können. Jede unnötige URL verbraucht Crawling-Budget, das besser für Produkte, Kategorien oder redaktionelle Inhalte genutzt werden sollte.
Inhaltsverzeichnis:
Shopware 6 liefert standardmäßig keine robots.txt mit.
Das bedeutet:
User-agent: *
Allow: /
Allow: /*.css
Sitemap: https://www.domain.com/sitemap.xml
Allow: /*.js
Allow: /*.jpg*
Allow: /*.jpeg*
Allow: /*.png*
Allow: /*.gif*
Allow: /*.svg*
Allow: /*.webp*
Disallow: */account/
Disallow: */checkout/
Disallow: */widgets/
Wichtig: Das ist eine Beispielhafte robots.txt für Shopware 6. Bitte diese Einstellung nicht einfach übernehmen ohne individuelle Prüfung für den eigenen Shop. Eine falsch konfigurierte robots.txt bedeutet im schlimmsten Fall einen vollständigen Rankingverlust. Nachfolgend erklären wir, wie diese beispielhafte robots.txt zustande kommt.
Eine allgemeingültige „perfekte“ robots.txt gibt es nicht. Jeder Shop benötigt eine individuelle Lösung, abhängig vom technischen Setup, Plugins, etc.
Die robots.txt muss zunächst nichts aktiv erlauben. Eine Website kann also auch ohne eine robots.txt gecrawlt werden. Die robots.txt ist somit nur eine Vorgabe an Bots, welche Seiten oder Bereiche nicht gecrawlt werden sollen.
Wichtiger Hinweis: Falsch gesetzte Regeln können dazu führen, dass Google wichtige Seiten nicht mehr crawlt oder der Shop sogar vollständig aus Suchmaschinen verschwindet. Änderungen sollten daher immer mit großer Vorsicht erfolgen. Wenn du Unterstützung in der Erstellung der robots.txt oder weiteren Shopware SEO Themen benötigen, stehen wir dir als Shopware Agentur gerne zur Verfügung.
Häufig werden für alle User-Agents (unterschiedliche Bots) die gleichen Regeln festgelegt. Einige Shop-Betreiber legen individuelle Regeln für unterschiedliche Bots fest, da sie befürchten, dass LLMs die Informationen ihrer Website "stehlen". Im E-Commerce empfehlen wir, das Crawling von LLM-Bots zuzulassen, um keine Sichtbarkeit zu verlieren und die Wahrscheinlichkeit für Erwähnungen im neuen Channel GEO (Generative Engine Optimization) deutlich zu erhöhen. Ein explizites "Allow" ist nicht zwingend notwendig, kann allerdings der Vollständigkeit halber dennoch gesetzt werden. Der Zugriff "Vollzugriff" kann zunächst mit folgenden Zeilen nochmal explizit festgehalten werden:
User-agent: *
Allow: /
User-agent: * bedeutet in diesem Kontext, dass alle Bots damit gemeint sind.
Damit sind zunächst Suchmaschinen-Bots und Bots von KI-Modellen zugelassen. Sofern es kein besonders hohes Aufkommen an Bot-Traffic gibt, welcher die Server überlastet, ist das ausreichend. Ansonsten kann für die jeweiligen Bots individuelle Regeln festgelegt werden.
Einige Pfade haben für den Nutzer eine Relevanz, sind für Suchmaschinen aber völlig uninteressant, können allerdings sehr viele URLs erzeugen und damit das Crawling-Budget verbrauchen.
Disallow: */account/
Disallow: */checkout/
Einige URLs haben einen technischen Hintergrund (zum Beispiel OffCanvas), haben für Suchmaschinen aber ebenfalls keinerlei Bedeutung.
Disallow: */widgets/
Wichtig: Vor allem beim Ausschließen technischer URLs sollte durch ein vollständiges Crawling geprüft werden, welche URLs diese Pfade tatsächlich enthalten, um auszuschließen, dass wichtige URLs gesperrt werden.
Neben Disallow-Regeln empfiehlt es sich, am Ende eine oder mehrere Sitemaps einzutragen mit folgendem Code:
Sitemap: https://www.domain.com/sitemap.xml
Falls verschiedene Sprachvarianten verfügbar sind, könnte die Shopware 6 Sitemap sich auch in Subfoldern befinden, zum Beispiel:
https://www.domain.com/de/sitemap.xml
Das ist eine Ergänzung zur Einreichung in der Google Search Console und hilft Crawlern beim schnellen Auffinden der wichtigsten URLs.
Wichtig: Es sollte geprüft werden, ob die Sitemap aufrufbar ist. Sollte es sich im einen Sitemap Index handeln (Verweis auf weitere Sitemaps) sollte sichergestellt werden, dass alle wichtigen Sitemaps enthalten sind.
Alle Parameter-URLs URLs zu blockieren hat einige Vorteile, denn die meisten Parameter-URLs sind für die Suchmaschinen nicht relevant. Es gibt allerdings vereinzelte Parameter, die hingegen doch Relevanz besitzen.
Disallow: /*?
Paginierungsseiten sind seit Shopware 6.7 per HTML als <a>-Link ausgezeichnet. Damit können Paginierungsseiten im Standard korrekt gecrawlt werden. Mit dem Befehl Disallow: /*? dürfen die auffindbaren Seiten zur Paginierung somit nicht gecrawlt werden.
Darüber hinaus kann es sein, dass eine Seite einen Backlink erhält und einen UTM-Parameter. Beispiel:
deinedomain.de/p/produktname?utm_source=google&utm_medium=affiliate&utm_campaign=sommer-sale
Wenn diese URL einen Backlink erhält, soll sie eigentlich die indexierbare URL stärken, nämlich:
deinedomain.de/p/produktname
Im Standard löst Shopware dies gut, indem von der Parameter-URL ein Canonical-Tag auf die URL ohne Parameter zeigt. Somit leitet Google die Autorität vom Backlink auf die URL weiter, wo sie auch ankommen soll. Wenn nun allerdings die Parameter-URL vom Crawling per robots.txt ausgeschlossen ist, ist das Canonical-Tag für Google nicht sichtbar und die Autorität kommt nicht bei der indexierbaren Seite an. Im Zweifel wird die Canonical-URL zusätzlich indexiert und wie folgt in den Google Suchergebnissen angezeigt:
Es ist eine gute Faustregel, CSS- und JavaScript-Dateien grundsätzlich zuzulassen. Google bewertet Seiten auf Basis des gerenderten HTML, also so, wie ein echter Browser sie in der mobilen Ansicht sieht. Wenn wichtige Dateien blockiert sind, kann Google unter Umständen:
Ein Blockieren dieser Ressourcen kann zu Rankingverlusten führen, weil Suchmaschinen die Seite technisch schlechter einordnen können.
Bilder spielen eine wichtige Rolle für den Kontext und im Bilder SEO. Verbieten wir crawlern das Abrufen von Bildern, können diese nicht indexiert werden und im Kontext von E-Commerce SEO ist dies ein fataler Fehler.
Disallow: /media/
Aufruf folgender URL:
https://www.domain.com/robots.txt
→ Die Datei muss erreichbar sein und Statuscode 200 liefern.
Unter:
https://search.google.com/search-console/settings/robots-txt
Dort siehst du:
Mit diesem Tool kannst du während der Navigation durch den Shop auf einen Blick erkennen, ob einzelne URLs blockiert sind. Zu prüfen sind vor allem die 3 Hauptbereiche (Startseite → Kategorie → Produkt)
Ein Crawl deckt nach einer Analyse auf, ob versteckte URLs aus Templates, JavaScript oder Plugins vorhanden sind. So lassen sich Blockierte URLs, die möglicherweise nicht blockiert werden sollten aufdecken. Zusätzlich lassen sich URLs aufdecken, die per robots.txt blockiert werden sollten.
Wichtig: Ein kompletter Crawl ist immer sinnvoll, da viele URLs ohne Blick in den Quellcode nicht sichtbar sind. Idealerweise sollte ein Crawl vor der Anpassung und ein Crawl nach der Anpassung durchgeführt werden.
Da das Thema robots.txt sehr technisch ist, aber eine sehr wichtige Rolle spielt, wie die Suchmaschine auf eine Website zugreift, nachfolgend die wichtigsten Fehler und Probleme und wie man sie behebt.
Ist eine Seite per robots.txt vom Crawling ausgeschlossen, wird der Google-Bot die Seite nicht auslesen. Das bedeutet auch, dass ein noindex-Tag sowie Canonical-Tag nicht ausgelesen werden kann und die robots.txt-Anweisung "gewinnt". Da mit allen Anweisungen unterschiedliche Ziele verfolgt werden ist es empfehlenswert, nur eine Anweisung pro Landingpage zu hinterlegen.
Wichtig ist es, die unterschiedlichen Use Cases zu verstehen, einen Bot die Seite nicht crawlen zu lassen (einsparen von Crawling-Budget) und der bewussten Deindexierung einer URL per noindex- oder Canonical-Tag (Irrelevant für Google-Index oder Duplicate Content).
Im SEO-Kontext gibt es mit der robots.txt beim Crawling zunächst keine Probleme, Suchmaschinen wie Google halten sich an diese Regeln.
Es gibt allerdings auch hier Ausnahmen: In der Google Search Console kann es beispielsweise folgenden Hinweis geben: "indexiert, obwohl durch robots.txt-Datei blockiert". In Google sieht das wie folgt aus:
Doch wie kann das passieren, wenn sich Google an die Regel hält, die entsprechenden URLs nicht zu crawlen? Durch unterschiedliche Signale wie die interne Verlinkung oder Backlinks kann es sein, dass Google die URL als relevant einstuft, obwohl Google die URL selbst nicht crawlt.
Abhängig von der Ursache muss das also kein menschlicher Fehler sein, sondern kann ein Fehler des Suchindex sein.
In diesem Fall wären die Lösungsschritte:
Auch, wenn man das Gefühl hat, man kenne seinen Shop und seine URLs, verstecken sich auch viele URLs im Quellcode einer Website. Es ist daher immer empfehlenswert, nach der Anpassung der robots.txt ein Crawling mit einem Tool wie z. B. ScreamingFrog zu machen und die Google Search Console anschließend im Blick zu behalten. Ohne diese Maßnahmen ist es ein Blindflug, der zu Sichtbarkeitseinbrüchen führen kann.
Eine sauber konfigurierte robots.txt ist zur Suchmaschinenoptimierung für Shopware 6 unverzichtbar.
Sie muss:
Nur so stellen Shopbetreiber sicher, dass Suchmaschinen relevante Inhalte effizient crawlen und der Shop sein volles SEO-Potenzial ausschöpft.


Paderborn
Technologiepark 23
33100 Paderborn
Leipzig
Berliner Straße 13
04105 Leipzig
✓ 36 Mitarbeiter
✓ Shopware Platinum Partner
✓ 40.000+ Plugin Downloads
✓ 60+ aktive Shops
✓ Full-Service Shopware Agentur
✓ 70 Shopware Videos auf Youtube
✓ Alle Shopware Zertifizierungen
Maxcluster
Shopware United
Pickware
Mollie
B2B Sellers
TimmeHosting
Händlerbund