Keyword-Clustering mit dem Levenshtein-Algorithmus

keyword-clustering

Teil des intern verwendeten Data Mining Boards ist das Keyword-Clustering, das auf dem Levenshtein-Algorithmus basiert. Was sich im Zuge eines SEO-Audits als einmalige Fleißarbeit betiteln lässt, wird bei der Analyse von wöchentlichen und anders getakteten Reportings zu einer zeitaufwendigen Herausforderung. Der Levenshtein-Algorithmus kann ein grobes, aber automatisiertes Keyword-Clustering im Vorfeld erzeugen, sodass bei drei- bis fünfstelligen Keyword-Listen zumindest eine annehmbare Keyword-Sortierung stattgefunden hat. Per Hand wäre dies undenkbar. In der Praxis erzeugen die Code-Schnipsel unterhalb bei ca. 800 Keywords 80-90 Cluster. Die Präzision dieses Algorithmus ist natürlich auch erheblich von der Gestalt der vorliegenden Keywords abhängig.

Keywords der Vorwoche und der aktuellen

Zunächst einmal benötigen wir für zwei Listen (verlorene und gewonnene Keywords) zwei Abfragen der Google Search Analytics API. Dafür benötigen wir zwei zusätzliche Zeitschranken. Für zwei gegebene Zeitpunkte wird eine zweite Anfrage vorbereitet, die Suchanfragen im Zeitraum zwei Wochen davor abfragt. So können wir verlorene und gewonnene Keywords gewinnen.

Der Prozess sehr minimalistisch grafisch dargestellt.

Keyword-Clustering

Auf beide Listen wird jeweils die Differenz der Menge in die eine und in die andere Richtung gebildet.

Die Queries dabei unterscheiden sich lediglich in den Request-Parametern startDate und endDate.

Auf die beiden Listen wird dann die Funktion levensthein aufgerufen. Die Werte werden entsprechend in separate csv-Dateien abgelegt. Der Parameter y ist optional und hat per se einen Existenzgrund, der nur im Gesamtzusammenhang des gesamten SEO-Reporting-Skripts zu verstehen ist. Benötigt man lediglich das Cluster, so kann die Funktion auch abstrahiert und y sowie die if-Bedingungen entfernt werden.

Hier kann man experimentierfreudig sein. Das Gewicht (hier 5) erzeugt plausible Ergebnisse.

Zusätzlich zum Keyword-Clustering sind Anwendungen zur Bereinigung von Fehlschreibweisen, Brand-Filter und ähnliche Methoden denkbar.

Weiterführende Informationen

http://www.levenshtein.de/

Algorithm Implementation/Strings/Levenshtein distance

Marvin Jörs

Marvin Jörs ist Gründer und geschäftsführender Gesellschafter der Skyscraper Marketing UG. Bereits mit 14 Jahren absolvierte Jörs sein erstes Schulpraktikum bei der Deutschen Telekom mit Aspekten aus der Suchmaschinenoptimierung. Seitdem erfolgten mehrere berufliche Stationen sowie Aktivitäten als freiberuflicher Webdesigner. Er hat an der Technischen Universität in Darmstadt einen B.Sc. in Wirtschaftsinformatik abgeschlossen.