SEO 6 Kommentare zu Interne Verlinkung visualisieren mit Gephi – Teil 1: Vorbereitung der Daten

Interne Verlinkung visualisieren mit Gephi – Teil 1: Vorbereitung der Daten

Die interne Verlinkung ist ein wichtiges Thema für die Suchmaschinen Optimierung und die Usability der Webseite. Zum einen müssen die Crawler der Suchmaschinen alle relevanten Seiten, Themencluster und eine Priorisierung dieser erfassen können. Zum anderen muss der Nutzer sich schnell und einfach durch die Seite navigieren können und schnell die Seite finden, die er sucht. Doch wie prüft man ob sein Konzept für die interne Verlinkung funktioniert?

gephi interne Verlinkung visualisierenJETZT NEWSLETTER ABONNIEREN

Interne Verlinkung visualisieren: Schritt für Schritt

Mit Gephi kann die interne Verlinkung einer Webseite untersucht und auch visualisiert werden. Jede Landingpage wird als einzelner Punkt, mit der jeweiligen Beziehung zu einer anderen Seite (Auf welche Seite wird verlinkt und welche Seiten verlinken auf diese), dargestellt und das sogar in Farbe, um Themencluster innerhalb der Webseite zu erkennen.

Gephi verwendet dabei nur den importierten Datensatz. Alles Weitere wird berechnet, wodurch Subjektivität ausgeschlossen werden kann. Das Tool eignet sich sowohl für Agenturen, als auch für Unternehmen, da stets neue Erkenntnisse mit Gephi erfasst werden können.

Wir erklären Schritt für Schritt, wie man die interne Verlinkung visualisiert und Maßnahmen daraus erkennen kann.

Wie installiere ich Gephi

Um Gephi nutzen zu können, muss mindestens Java 1.8 installiert sein.

Der Download der Software kann direkt von der Webseite des Herstellers gestartet werden. Die Software ist für Windows, Mac OS X und Linux verfügbar. Die Installation sollte mit Administratorrechten ausgeführt werden und dürfte ohne Probleme erfolgen. Soweit so einfach.

Beim Öffnen des Programms kann es zu folgender Fehlermeldung kommen. Dabei ist es egal ob Java vor der Installation von Gephi installiert wurde oder erst danach.

Gephi-Fehler: Cannot find Java 1.8 or higher

Abb.2 Gephi-Fehler: Cannot find Java 1.8 or higher

Der Fehler wird verursacht, da Gephi den Pfad zum Java-Ordner nicht erkennt. Daher muss dieser manuell in der dazugehörigen Datei eingetragen werden. In der Datei gephi.conf muss der Pfad von Java angegeben werden. Diese Datei muss mit Notepad oder einem ähnlichen Editor geöffnet werden und liegt meist unter dem Pfad:

C:\Program Files\Gephi-0.9.2\etc (Oder da, wo Gephi auf dem Computer installiert ist)

und enthält in der default Variante die Angabe „#jdkhome=“/path/to/jdk““ in Zeile 11.

gephi-datei-mit-fehler

Abb.3 Inhalt der gephi.conf Datei – Fehlerhaft

Dies muss ausgetauscht werden mit „jdkhome=“C:\Program Files (x86)\Java\jre1.8.0_161““ (Hier muss der Pfad des Java-Ordners angegeben werden. Wichtig ist, dass das # am Anfang der Zeile entfernt wird.)

gephi-datei-mit-fehler

Abb.4 Inhalt der gephi.conf Datei – Korrekt

Anschließend kann Gephi ohne Probleme geöffnet werden.

Wie erstelle ich die Daten-Tabelle für Gephi

Gephi kann leider von sich aus keine interne Verlinkung darstellen. Hierfür wird in den meisten Fällen ein weiteres Tool benötigt, welches die Domain crawlt und die interne Verlinkung wiedergibt. Wenn nicht gerade Amazon, Wikipedia oder Rakuten dargestellt werden muss, sollte das Tool Screaming Frog ausreichen. Für größere Seiten sollte man auf Audisto, deepcrawl oder ähnliches zurückgreifen.

Bei einer Domain, die weniger als 500 URLs besitzt, kann die kostenlose Version von Screaming Frog verwendet werden. Darüber hinaus wird die kostenpflichtige Version benötigt, welche jedoch mit 149 £ pro Jahr (Circa 170 Euro) günstiger ist, als die meisten Konkurrenten.

Im Weiteren wird die Verwendung von Screaming Frog betrachtet.

Crawling mit Screaming Frog

Für die interne Verlinkung benötigen wir die HTML-Seiten der Domain. Andere Dateien wie JavaScript, Bilder, CSS oder ähnliches können direkt vor dem Crawl ausgeschlossen werden. Dies kann unter Configuration > Spider einstellt werden. Allerdings ist das nur in der kostenpflichtigen Version möglich, erspart später aber ein wenig Arbeit.

Einstellungen Screaming Frog

Abb.5 Einstellungen zum Crawl in Screaming Frog

Anschließend kann der Crawl gestartet werden, indem die korrekte URL der Startseite eingetragen wird. Dies kann, je nach Domain, von ein paar Minuten bis zu mehreren Stunden dauern. Nach Abschluss können alle internen Links exportiert werden. Dafür am besten unter Bulk Export > Response Code > Success (2xx) inlinks den Download starten.

Dadurch werden nur die internen Links exportiert, welche einen Statuscode 200 (ok) als Ziel haben. Somit schließt man direkt Weiterleitungen (300er) und Fehlerseiten (400er) aus. Diese Tabelle muss jetzt nur noch für Gephi aufbereiten werden, bevor die Domain dargestellt und entsprechende Maßnahmen erfasst werden können.

Daten für Gephi aufbereiten mit Excel

Die Datei von Screaming Frog enthält viele Daten, welche so nicht für Gephi benötigt werden. Aus diesem Grund muss die Datei aufbereitet werden. Hierfür kann jedes Tabellenkalkulationsprogramm verwendet werden wie Excel oder OpenOffice Calc. Wir bevorzugen Excel und gehen in den nächsten Schritten nur auf dieses Programm und die entsprechenden Funktionen ein. Am besten sollte nach dem nachfolgenden Schema vorgegangen werden:

  1. Entfernen der Spalten D – I: Diese Informationen in den Spalten werden nicht benötigt in Gephi.
  2. In Spalte A filtern nach allem, was nicht „AHREF“ enthält und diese entfernen: Dadurch bleiben nur die relevanten Links enthalten (Schritt kann entfallen, wenn die Spider Configuration verwendet wurde)
  3. Spalte A entfernen: Diese Spalte wird nach Schritt 2 nicht mehr benötigt
  4. Duplikate aus Spalte A und B entfernen: Wenn Seiten öfter auf eine Seite verlinken, erkennt Gephi sie trotzdem nur als ein Link. Um die Datei entsprechend für Gephi zu verkleinern, sollte diese entfernt werden. Dafür die beiden Spalten markieren und anschließend unter Daten > Datentools > Duplikate entfernen
  5. Verlinkungen auf sich selbst entfernen: Viele Seiten verlinken immer auf sich selbst (Durch Hauptnavigation, Logo, Footer, falsch eingestellte Breadcrumb). Diese sind auch in der Daten-Tabelle enthalten, sind aber für die spätere Darstellung nicht von Nutzen. Um diese zu entfernen sollte folgende Formel in Spalte C verwendet werden: =WENN(A1=B1;1;0) (Beispiel für Zeile 1 des Dokumentes). Diese Formel entsprechend für alle Zeilen anwenden. Anschließend Innerhalb der Spalte nach „1“ filtern und all diese Zeilen entfernen. Danach kann die Spalte C wieder entfernt werden.
  6. Externe Verlinkung exportieren: Häufig sind in der Tabelle noch Verlinkungen zu externen Domains enthalten. Um diese zu identifizieren sollte die Spalte B nach dem Alphabet sortiert werden. Alternativ kann man auch innerhalb der Spalte nach allem Suchen, was nicht den Hostnamen der eigenen Domain enthält. Diese Zeilen sollten auf jeden Fall entfernt werden.
  7. Bilder und PDF Verlinkung entfernen: Bilder und PDFs werden manchmal auch innerhalb eines Textes verlinkt. Dies filtert man am besten in Spalte B heraus. In die Filtersuche die gängigsten Endungen (.pdf, .png, .jpg, .gif) nacheinander eingeben und anschließend die Zeilen entfernen.
  8. Nicht relevante URLs aussortieren: Dieser Schritt kann je nach Domain mehr oder weniger Zeit in Anspruch nehmen, ist aber umso wichtiger, da sonst das Bild in Gephi mit unnötigen Daten gefüllt wird und die Grafik unübersichtlicher wird. Hierfür am besten eine zweite Excel-Datei öffnen und Spalte A und B, des originalen Dokuments, untereinander in Spalte A, des neuen Dokuments, einfügen. Anschließend müssen alle Duplikate aus dieser neuen Spalte entfernt werden. Diese Spalte sortieren. Um ein eindeutiges Bild in Gephi zu bekommen, muss die Liste durchgegangen werden und alle Seiten erfasst werden, welche irrelevant für die interne Verlinkung sind (Datenschutz, AGB, Impressum, Paginierte Seiten, Suche, ect.) und/oder für die Suchmaschine keinen Mehrwert haben (Sind auf noindex). Diese müssen aus dem originalen Dokument aus Spalte A und aus Spalte B entfernt werden. Dafür jede betreffende Seite einzeln in der Spalte suchen und entfernen. Dies kann auch einfacher über einen SVERWEIS erfolgen.
  9. Spalte B in „Target“ umbenennen: Für Gephi muss die Spalte B umbenannt werden, da sonst das Tool die Datei nicht verarbeiten kann.
  10. Hostname entfernen: Da wir nur die interne Verlinkung betrachten und in den Zeilen nur noch solche enthalten sind, sollte jetzt der Hostname entfernt werden. Dies vereinfacht später die Visualisierung innerhalb von Gephi. Hierfür STRG + H drücken und nach dem Hostnamen suchen (Beispiel für unsere Domain: https://www.internetwarriors.de) und anschließend auf ersetzen drücken (Wichtig: Das Slash nach dem Hostnamen sollte nicht entfernt werden, da sonst die Startseite verschwindet)
  11. Spalten kombinieren: Gephi kann nur CSV-Dateien verarbeiten. Entsprechend muss die Excel-Datei als CSV vorbereitet werden. Dafür kann eine Verkettungsformel helfen. In Spalte C einfach diese Formel eintragen =A1&“,“&B1 (Beispiel für Zeile 1 in Spalte C). Dies für alle Zeilen anwenden. Anschließend muss die Formel entfernt werden. Dafür Spalte C komplett markieren, STRG + C, Rechtsklick und unter Einfügeoption Werte auswählen. Anschließend ist die Formel aus der Spalte entfernt und wurde durch die Werte ersetzt. Nun können Spalte A & B entfernt werden, so dass die neuen Werte die neue Spalte A ist.
  12. Als CSV Exportieren: Jetzt muss die Datei nur noch als CSV-Datei exportiert werden. Unter Datei > Speichern unter mit dem Dateityp CSV (MS-DOS).

Im zweiten Teil gehen wir mehr auf die Funktionen von Gephi ein und wie die Visualisierung im Detail erfolgen kann.

JETZT NEWSLETTER ABONNIEREN

Was können wir für Sie tun?

Sind Sie auf der Suche nach einer Agentur für Online Marketing? Wir beraten Sie gerne von den strategischen kreativen Plänen bis hin zur operativen Umsetzung entlang der neuen EU-DSGVO. Wir freuen uns auf Ihre Anfrage.

6 Kommentare zu “Interne Verlinkung visualisieren mit Gephi – Teil 1: Vorbereitung der Daten

  1. Sehr interessanter Beitrag. Eine Frage gibt es eine Funktion in Excel, die die Funktion „=WENN(A1=B1;1;0) “ automatisch bis runter zieht? Ich habe knapp 2 Mio Zeilen, wär eine Erleichterung 😀

    1. Hallo Marius,

      welche Version von Excel verwendest du? Bei den meisten kann die Formel automatisch runter gezogen werden, wenn man doppelt auf das Viereck der Zelle drückt, wo die Formel verwendet wurde.

      Lieben Gruß,
      Toni

  2. Hallo,

    sehr toller Artikel. Ich habe das für eine Domain komplett nachgebaut. Hat super funktioniert.
    Eine Frage habe ich jedoch:
    Wie geht ihr mit Canonical Links um. Macht es Sinn in der Aufbereitung der Daten, die Seiten die mit einem Canonical auf eine andere Seite verlinkten direkt mit dieser zu ersetzen?

    Gruß
    Anthony

    1. Hallo Anthony,

      super, dass es bei dir so gut funktioniert hat!

      Prinzipiell sollten Seiten, welche per Canonical-Tag auf eine andere Seite zeigt, nicht intern verlinkt werden. Durch zu viele interne Links kann der Canonical-Tag ignoriert werden und die Seite wird indexiert.
      Sinnvoller wäre es, diese internen Links zu entfernen oder zu ersetzen.

      Lieben Gruß,
      Toni

    1. Lieber Luther,
      In diesem Fall gibt es zwei Möglichkeiten. Entweder Sie laden die Datei direkt als Excel Workbook herunter oder bearbeiten dieses in Excel. Über den Menüpunkt „Daten“ gelangen Sie zu „Text in Spalten“. Über den Textkonvertierungs-Assistent wählen Sie einfach den Dateityp „Getrennt“ aus und schon sind Ihre Daten bereit zur Analyse.

      Da die kostenlose Version des Screamingfrog nur eine maximale Anzahl von 500 Elementen crawlt. Sollten Sie beachten, dass Ihr Ergebnis eventuell nicht die gesamte Übersicht Ihrer Seite wiederspiegelt.
      Viele Grüße, Jenny

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

1 × vier =