Zeitreihenzerlegung von Google Search Console Daten

gleitender-durchschnitt

Möchte man Aussagen über den zukünftigen Klickverlauf treffen, so erschwert der (saisonal) schwankende Zeitreihenverlauf oftmals die genaue Prognose. Wendet man typische Schätzverfahren an, so sind diese in der Regel nicht effizient. Ein Verfahren aus dem Bestandsmanagement schafft einen Lösungsansatz – für additive und multiplikative Saisonalität.

 

Zeitreihendekomposition

Montag Dienstag Mittwoch Donnerstag Freitag Samstag Sonntag
256 295 241 245 202 133 144
228 239 223 208 140 116 112
213 224 182 199 162 112 153
226 191 223 239 200 118 139

 

Im ersten Schritt müssen die Saisonfaktoren ermitteln werden. Man bezeichnet diesen Vorgang schlicht auch als Trennung von Saisonkomponente und Trendkomponente. Dafür können zwei Verfahren verwendet werden:

1. Lineare Regression
2. Zentraler gleitender Durchschnitt

Exemplarisch sind hier die Werte nach Anwendung des zentralen gleitenden Durchschnitts (Zyklus = 7 (da jeweils 1 Woche)) berechnet worden. Dabei werden stets sieben Werte (nach dem Zyklus) aufsummiert und diese Summe wird durch die Zyklusgröße geteilt.

Es sind insgesamt 22 Werte (Eigentlich haben wir 28 Werte (Werte über vier Wochen)). Das Verfahren benötigt stets sieben Werte, um einen Wert zu schätzen.

Gleitender Durchschnitt

Daher ist es nicht möglich, für die ersten drei und die letzten drei Werte Durchschnitte zu berechnen. Das soll aber nicht weiter stören.

Im zweiten Schritt eliminieren wir die glatte Komponente. Die gemessene Klickzahl wird durch den berechneten Schätzwert geteilt. Das geht natürlich nur in zweiundzwanzig Fällen, da uns die Schätzwerte für die ersten drei und die letzten drei Werte fehlen.

Wir erhalten:

Der erste Wert repräsentiert den jeweiligen Wochentag und wurde an den Wert angehängt (Output aus eigenem Python-Skript). Wir benötigen diese Information im nächsten Schritt.

Wir sortieren die vorläufigen Saisonfaktoren nach den Wochentagen und bilden hier wiederum den Durchschnitt aller Saisonfaktoren für den jeweiligen Wochentag. Achtung: Da uns bedingt durch das Verfahren sechs Daten fehlen, bilden wir Durchschnitte auf Basis unterschiedlicher Mächtigkeiten. Wir müssen die Durchschnitte normieren (Zyklusgröße / Summe aller berechneten Durchschnitte).

Die vorherigen Durchschnittswerte für Montag bis Sonntag:

Die normierten Durchschnittswerte für Montag bis Sonntag:

Zur Kontrolle muss die Summe exakt der Zyklusgröße (=7) entsprechen.

Zuletzt isolieren wir die Saisonkomponente aus den Daten. Wir dividieren die Klickzahl am Wochentag X durch den jeweiligen normierten Durchschnittswert für Wochentag X:

Nun können wir auf Basis dieser bereinigten Daten eine Regression durchführen. Die Schätzparameter können zur Erstellung von Prognosewerten verwendet werden (Verfahren von Holt mit Alpha = 0,1, Beta = 0,2 bspw.).

Quellen

http://statmath.wu-wien.ac.at/courses/multverf1/FolienVK2-teil1-kap11-12.pdf

https://otexts.org/fpp2/holt-winters.html

https://docs.oracle.com/cd/E57185_01/CBPPU/holt-winters_additive.htm

http://s3.amazonaws.com/zanran_storage/www.cec.uchile.cl/ContentPages/107548415.pdf

https://www.uni-siegen.de/smi/aktuelles/bestandsmanagement_wolf.pdf

Marvin Jörs

Marvin Jörs ist Gründer und geschäftsführender Gesellschafter der Skyscraper Marketing UG. Bereits mit 14 Jahren absolvierte Jörs sein erstes Schulpraktikum bei der Deutschen Telekom mit Aspekten aus der Suchmaschinenoptimierung. Seitdem erfolgten mehrere berufliche Stationen sowie Aktivitäten als freiberuflicher Webdesigner. Er hat an der Technischen Universität in Darmstadt einen B.Sc. in Wirtschaftsinformatik abgeschlossen.