Suchmaschinen möchten Nutzern die relevantesten Informationen liefern und ihren Datenbestand effizient gestalten. Ein „Phänomen“, das dem entgegenwirkt, sind doppelte Inhalte oder auch Duplicate Content bzw. Double Content. Doch wie kommt es zu doppelten Inhalten? Wir haben für Sie die häufigsten Ursachen von Duplicate Content zusammengetragen und zeigen Ihnen, wie Sie solche Inhalte vermeiden.
Die häufigste Ursache von Duplicate Content ist das bewusste oder unbewusste Kopieren von Inhalten. Produktbeschreibungen, Definitionen, Pressemitteilungen und weitere Inhalte aus dem Web zu kopieren und auf der eigenen Seite zu veröffentlichen, stellt ein großes Problem dar. Je nachdem in welchem Ausmaß Webseitenbetreiber diese Strategie verfolgen, kann es im schlimmsten Fall dazu kommen, dass Suchmaschinen betreffende Seiten abstrafen. Infolgedessen verschwinden die Keywords nach und nach aus den Rankings.
Auch Onlineshops sind betroffen. Jedes Produkt mit eigener URL benötigt eine individuelle Produktbeschreibung. Eine andere Variante wäre, das Produkt von der Indexierung auszuschließen, was für Onlineshops eine eher kontraproduktive Maßnahme darstellt. Schließlich ist das Ziel eines Shops, Waren zu verkaufen. Finden Kaufinteressenten die Produktseiten nicht in den Suchmaschinen, besteht die Gefahr, dass Ihr Shop nicht gefunden wird und die Ware im Lager bleibt.
Problem: Domains sind mit www und ohne www aufrufbar
Viele Webseiten sind sowohl mit www, als auch ohne www erreichbar. Das ist problematisch, da aus Sicht von Suchmaschinen alle URLs doppelt vorhanden sind.
https://www.domain.de/
https://domain.de/
Entscheiden Sie sich für eine Hauptvariante. Der überwiegende Teil der Webseitenbetreiber entscheidet sich für die www-Variante. Achten Sie darauf, auch alle internen links auf diese Variante weiterzuleiten um den internen Linkjuice optimal zu nutzen. Ihnen stehen zwei Möglichkeiten zu Verfügung, wie Sie mit dieser Problematik umgehen und Ihre Hauptvariante festlegen.
- .htaccess-Datei: Mithilfe dieser Datei legen Sie fest, dass die Variante ohne www permanent auf die Variante mit www weiterleitet.
- Google Search Console: Google ist die Problematik bekannt. Sie haben die Möglichkeit in Google Search Console festzulegen, welche Variante Sie bevorzugen.
Sind abschließende Slashs problematisch?
Wer im Web unterwegs ist, dem fallen unterschiedliche Schreibweisen von URLs auf. Es existieren URLs mit und ohne Slash am Ende. Zum Beispiel:
https://www.domain.de/
https://www.domain.de
Streng genommen handelt es sich hierbei ebenfalls um zwei verschiedene URLs beziehungsweise Dokumente, die bei gleichem Inhalt eventuell Duplicate Content verursachen. Auch wenn Google laut Mitteilung eine automatische Kanonisierung gelingt, ist es sinnvoll ein einheitliches Schema zu verwenden.
Startseite mit oder ohne index.html – worin liegt der Unterschied?
Die Startseite einer Domain sollte nie über mehrere URLs erreichbar sein.
https://www.domain.de
https://www.domain.de/
https://www.domain.de/index.html
Wie beschrieben stellt das Slash am Ende für moderne Browser kein Problem dar, da sie es vor dem Absenden in der Regel entfernen. Anders sieht es bei der Nennung von „index.html“ aus. Setzen Sie ein -Tag auf der https://www.internetwarriors.de/index.html-Seite. Durch dieses Tag verhindern Sie Duplicate Content und leiten die komplette Linkpower auf die richtige URL. Es sagt der Suchmaschine, dass die Startseite immer mit https://www.internetwarriors.de/ definiert ist.
Dieses Tag sieht wie folgt aus:
<link rel=“canonical“ href=https://www.domain.de/>
So handhaben Sie Test- und Entwicklungsserver
Wenn Webseitenbetreiber größere Arbeiten an ihren Seiten durchführen, legen sie in der Regel eine Kopie ihrer Seite an. Auf dieser Seite testen sie beispielsweise neue Designelemente oder Programmierungen, ohne die öffentliche Webseite zu beeinträchtigen. Da je nach Webseitengröße ggf. verschiedene Personen an diesem Testsystem arbeiten, ist diese Testumgebung in der Regel über das Web zugänglich. URLs für solche Textsysteme sehen üblicherweise wie folgt aus:
https://test.domain.de
https://www.domain.de/test/
https://www.test-domain.de
Wenn Sie vergessen die Subdomain oder den Pfad gegen den Zugriff von Suchmaschinen zu schützen, entsteht Duplicate Content, da Suchmaschinen die Testseite und die Live-Seite indexieren.
Um dies zu verhindern gibt es folgende Möglichkeiten:
- Schützen Sie die Testseite über die .htaccess-Datei mit einem Passwort.
- Unterbinden Sie den Zugriff aller Webcrawler durch die robots.txt.
So haben Sie die Gewissheit, dass Ihre Testseite nicht im Index der Suchmaschinen landet und kein Duplicate Content entsteht.
Wenn Sie darüber nachdenken, der Testseite ausschließlich das noindex-Meta-Tag mitzugeben, bedenken Sie, dieses bei der Liveschaltung zu entfernen. Ansonsten riskieren Sie, dass Suchmaschinen die öffentliche Webseite aus dem Index nehmen. Allerdings ist dies nur problematisch, wenn das Testsystem das aktuelle Livesystem ablöst.
So bilden Sie Druckansichten richtig ab
Oftmals steht auf Webseiten eine Druckansicht zur Verfügung. Um dies umzusetzen existieren zwei Varianten. Bei der Ausgabe der Webseite auf dem Drucker können Sie die URL über die Mediensteuerung von CSS anders gestalten. Dies geschieht über eine Zeile im Head-Bereich des Seitencodes. Diese kann wie folgt aussehen:
Da es sich hierbei um das gleiche Dokument handelt, gestaltet sich diese Variante als sicher. Sie ist frei von Duplicate Content.
Eine weitere Variante ist das Steuern der Druckansicht durch eine eigenständige URL oder einen Parameter. Aussehen können diese wie folgt:
https://www.domain.de/blog.html?print=1
https://www.domain.de/blog-druckansicht.html
Da es sich um zwei verschiedene URLs handelt, die über die gleichen Inhalte verfügen, ist die Wahrscheinlichkeit für Duplicate Content an dieser Stelle hoch. Zu empfehlen ist, die Druckansicht von der Indexierung auszuschließen. Weiterhin sollten Sie die Verlinkung zu der Druckansicht mit einem nofollow-Attribut versehen.
So gehen Sie mit funktionalen Parametern um
In Shop-Systemen und Content-Management-Systemen existieren oft funktionale Parameter um Ansichten zu steuern. Meistens sind das Parameter in Produktkategorien, die beispielsweise nach Markennamen oder dem Preis sortieren. Diese sehen beispielsweise so aus:
Sortierung nach Marke:
https://www.domain.de/kategorie.html?sort=brand
Sortierung nach Preis:
https://www.domain.de/kategorie.html?sort=price
Beachten Sie, dass Sie durch diese Parameter lediglich die Sortierung und nicht die Inhalte ändern. Daher entsteht gegebenenfalls Duplicate Content. Dies verhindern Sie, indem Sie die Parameter per robots.txt, Google Search Console oder noindex-Metatag sperren. Beachten Sie dies auch bei den Session-IDs, der Paginierung, der interne Suche und bei den Produktinformationen wie beispielsweise der Größe oder der Farbe beachten.
Was wir für Sie tun können
Sie haben die Befürchtung, dass Sie auf Ihrer Webseite doppelte Inhalte haben oder wollen mehr über das Thema erfahren. Kontaktieren Sie uns und wir helfen Ihnen, Duplicate Content auf ihrer Seite ausfindig zu machen und die Ursachen zu beheben.