Multikollinearität im Datenmodell | Online Marketing Basics

korrelationsmatrix

Multikollinearität kann im eigenen Regressionsmodell dazu führen, dass eine Schätzung nicht möglich ist. Bei starker Multikollinearität drohen rissige Schätzungen. Statistik-Software in R streicht bspw. bei Vorliegen von perfekter Multikollinearität Variablen aus der Schätzung. Variablenunterdrückung kann ein Mittel sein. So lässt sich Multikollinearität erkennen.

 

Perfekte und starke Multikollinearität

Bei perfekter Multikollinearität existiert kein Inverses der Matrix (X’X)-1. Die Determinante der Matrix beträgt null. Es gibt somit linear abhängige Spalten. Beim Versuch, die Berechnung der Inversen dieser Matrix durchzuführen, reagiert numpy:

Multikollinearität im Modell

Über eine einfache Abfrage kann man perfekte Multikollinearität im Modell abfangen. Entspricht der Rang der Matrix (Rückgabe über numpy.linalg.matrix_rank) nicht dem Wert k (Die Matrix hat somit keinen vollen Rang), dann muss ggf. eine Variable automatisch entfernt werden.

Diagnostiken von Multikollinearität

Ein Ansatz ist die Betrachtung der Korrelationsmatrix der erklärenden Variablen. Dabei kann ein hoher Korrelationskoeffzient zwischen den erklärenden Variablen eine erstes Indiz für Multikollinearität im Modell sein. Die Beispieldaten entstammen dieser Test-Regression:

Korrelationsmatrix

Die Verweilzeit und das Alter der Nutzer sind stark korreliert (85%). Gemessen an der Schwelle (90%), sind sie aber nicht zu stark korreliert, um gefährlich zu werden.

Die Berechnung der Korrelationsmatrix (Hard-Code, aber funktioniert):

Über eine Konditionszahl der Eigenwerte von X’X lässt sich ebenfalls eine Aussage über die Multikollinearität im Modell treffen. Die Aussagekraft der Messzahl ist aufgrund der fast willkürlichen Wertsetzung, die noch zur Akzeptanz führt, in der Kritik.

 

    \[    Konditionszahl = \sqrt[2]{\frac{\lambda_m_a_x}{\lambda_m_i_n}} > 30 \]

Oftmals wird auch der Varianzinflationsfaktor verwendet.

 

    \[    VIF_j = \frac{1}{1-R^2_j} > 10 \]

Dabei wird eine erklärende Variable xj auf alle anderen Regressoren im Modell regressiert.

Vermeidung von Multikollinearität

  • Keine stark korrelierten Variablen verwenden
  • Vermeidung der Dummy-Variablen-Falle
  • Einfache Variablenunterdrückung (Möglicher Informationsverlust), Ausschluss einer relevanten Variable führt zu einer Verzerrung der Schätzer!
  • Datengrundlage erhöhen, um präziser zu schätzen (Kleinere Varianz)

Quellen

Multicollinearity in Regression Analysis: Problems, Detection, and Solutions

Multicollinearity

Enough Is Enough! Handling Multicollinearity in Regression Analysis

When Can You Safely Ignore Multicollinearity?

Marvin Jörs

Marvin Jörs ist Gründer und geschäftsführender Gesellschafter der Skyscraper Marketing UG. Bereits mit 14 Jahren absolvierte Jörs sein erstes Schulpraktikum bei der Deutschen Telekom mit Aspekten aus der Suchmaschinenoptimierung. Seitdem erfolgten mehrere berufliche Stationen sowie Aktivitäten als freiberuflicher Webdesigner. Er hat an der Technischen Universität in Darmstadt einen B.Sc. in Wirtschaftsinformatik abgeschlossen.