Regression

Die Regression ist ein statistisches Verfahren zur Untersuchung des Zusammenhangs zwischen einer abhängigen Variable (AV) und einer oder mehreren unabhängigen Variablen (UV). Die abhängige Variable ist die Variable, die „erklärt werden“ soll, und die unabhängigen Variablen sind die Variablen, die dies „leisten „Erklärung“ leisten sollen.

Man spricht in diesem Kontext auch von einem Zurückführen eines Kriteriums (vorherzusagende abhängige Variable Y) auf einen oder mehrere Prädiktoren (beeinflussende unabhängige Variablen X₁, X₂, etc.).

Damit postuliert die Regression einen Zusammenhang, der in eine bestimmte Richtung verläuft. Es muss hier also, anders als bei der Korrelation, eine Vermutung zur Kausalität vorliegen, um sinnvoll vorgehen zu können.

Mit der linearen Regression werden lineare Zusammenhänge erklärt. Es gibt auch weitere Methoden und Arten, angenommene (auch nicht-lineare) Zusammenhänge zu erklären, wie zum Beispiel die logistische Regression.

Lineare Regression

Bei der linearen Regression sind die Variablen metrisch skaliert. Das vorher zu inspizierende Streudiagramm legt einen linearen Zusammenhang nahe.

Es werden bei der linearen Regression zwei Typen unterschieden:

a) Einfache bzw. bivariate Regression mit nur einem Prädiktor

Ein Pfeil weist von einem Quadrat, mit einem großen X, von links nach rechts zu einem Quadrat, mit einem großen Y. — Einfache lineare Regression

b) Multiple Regression mit zwei und mehr Prädiktoren

Ein Pfeil weist von einem Quadrat, mit einem großen X-klein-1,von links nach rechts zu einem Quadrat, mit einem großen Y. Genau unter dem Quadrat, mit dem großen X-klein-1, ist ein weiteres Quadrat, mit einem großen X-klein-2. Auch von diesem weist ein zweiter Pfeil von links nach rechts zu dem einen Quadrat, mit dem großen Y. Genau unter dem Quadrat, mit dem großen X-klein-2, befinden sich Fortsetzungspunkte. Genau darunter ist ein weiteres Quadrat, mit einem großen X-klein-k. Auch von diesem weist ein dritter Pfeil von links nach rechts zu dem einen Quadrat, mit dem großen Y. — Multiple lineare Regression

a) Einfache lineare Regression

Ziel der einfachen linearen Regression ist das Auffinden einer linearen Funktion, die die Verteilung der Wertepaare (x_i ; y_i) im Streudiagramm möglichst gut abbildet, Das heißt: das Finden der Regressionsgerade, von der diese Wertepaare möglichst wenig abweichen.

Lineare Regressionsfunktion:

y_{i}=a+b\cdot x_{i}+e_{i}

𝑦_𝑖 = beobachteter 𝑌‐Wert für den 𝑋‐Wert der 𝑖‐ten Beobachtung
𝑎 = Schnittpunkt mit der 𝑌‐Achse (Achsenabschnitt bzw. „Konstante“)
𝑏 = Steigung der Regressionsgeraden (unstandardisierter Regressionskoeffizient)
𝑒_𝑖 = Residuum bzw. Abweichung des beobachteten Werts 𝑦_𝑖vom vorhergesagten Wert ŷ_i (𝑒=„error“)

Beispiel

Forscher:innen vermuten, dass Paare, welche angeben, sich mehr zu lieben, auch länger miteinander kommunizieren. Auf der x-Achse ist die „Liebe“-Skala (0: sehr niedriger Liebeswert, 20: sehr hoher Liebeswert) und auf der y-Achse die tägliche Kommunikation in Minuten abgetragen. Mit einer kleinen Umfrage unter 10 Paaren erhalten die Forscher:innen folgende Werte.

Probanden-Paar (i)	*Punkte auf der „Liebe“-Skala (x_i)*	*Tägliche Kommunikation in Minuten (y_i)*
1	9	4
2	15	30
3	13	9
4	10	8
5	0	1
6	9	6
7	5	5
8	12	10
9	1	0
10	11	7
Mittelwert	8,5	8,0
s	4,99	8,38

Zehn Beispielwerte für eine Regression

Diese Werte lassen sich auch als Punktewolke bzw. Streudiagramm darstellen:

In einem x-y-Diagramm befinden sich an unterschiedlichen Stellen 10 blaue Punkte. Die x-Wert-Achse ist bezeichnet mit dem Text „Punkte auf der „Liebe“-Skala“. Die y-Wert-Achse ist bezeichnet mit dem Text „Tägliche Kommunikation in Minuten“. Eine graue Gerade verläuft durch die gesamte Diagrammfläche von links-unten nach rechts-oben. Sechs blaue Punkte sind jeweils mit einer kurzen grünen, zur y-Wert-Achse parallelen, Strecke mit der grauen Gerade verbunden. Für einen weiteren blauen Punkt ist diese grüne Strecke aber deutlich länger. Dagegen liegen die verbleibenden 3 blauen Punkte fast auf der grauen Gerade. — Veranschaulichung der Regression

Die Gerade der linearen Regressionsfunktion wird so gewählt, dass die Abweichung der erwarteten Werte von den beobachteten Werten minimal ist. Diese Abweichungen sind hier in grün dargestellt. Eine Methode, um die Regressionsgerade zu berechnen, ist die Methode der kleinsten Quadrate (OLS = Ordinary Least Squares), welche die Summe der quadrierten Residuen minimiert:

\sum_{i=1}^N e_i^2 \qquad mit \qquad e_i=y_{i}-\hat{y_{i}} =y_{i}-(a+b\cdot x_{i})

Berechnung der Parameter einer einfachen linearen Regressionsfunktion

Da für die saubere Herleitung der Methode der kleinsten Quadrate (OLS= Ordinary Least Squares) partielle Ableitungen nötig sind, sind Interessierte an gute Quellen im Internet verwiesen. Ein separater Exkurs mit einer Einführung der Differenzialrechnung erfolgt an dieser Stelle nicht, vorgestellt wird nur das Ergebnis.

Die Steigung berechnet sich somit aus der Kovarianz von X und Y durch die Varianz von X.

b=\frac{s_{XY}}{s_X^2}

Nachdem die lineare Regressionsfunktion durch den Punkt (ȳ; x̄) verläuft, ergibt sich für den y-Achsenabschnitt a:

a=\bar{y}-b\cdot \bar{x}

Die Parameter der linearen Regressionsfunktion im Streudiagramm:

In einem x-y-Diagramm befinden sich an unterschiedlichen Stellen 3 blaue Punkte. Die x-Wert-Achse ist bezeichnet mit dem Text „Punkte auf der „Liebe“-Skala“. Die y-Wert-Achse ist bezeichnet mit dem Text „Tägliche Kommunikation in Minuten“. Eine graue Gerade verläuft durch die gesamte Diagrammfläche von links-unten nach rechts-oben. Die Strecke des Schnittpunkts von grauer Gerade und y-Achse zum Ursprung des x-y-Diagramms misst eine geschweifte Klammer, die mit einem kleinen a beschriftet ist. Die Gegenkathete des grünen Steigungsdreiecks misst eine geschweifte Klammer, die mit einem kleinen b beschriftet ist. Die vertikale Strecke von einem Punkt, beschriftet mit y-Dach-klein-i, auf der grauen Geraden zu einem der blauen Punkte, beschriftet mit y-klein-i, misst eine geschweifte Klammer, die mit einem kleinen e-klein-i beschriftet ist. — Veranschaulichung der Parameter im Streudiagramm

Für das Beispiel ergibt sich:

s_{XY}(Kovarianz)=\frac{1}{N-1}\cdot\sum_{i=1}^N(x_{i}-\bar{x})\cdot(y_{i}-\bar{y})=\frac{279}{9}=31

s_X^2(Varianz\,von\,X)=\frac{1}{N-1}\cdot\sum_{i=1}^N(x_{i}-\bar{x})^{2}=\frac{224,5}{9}=24,94

b=\frac{s_{XY}}{s_X^2}=\frac{31}{24,94}=1,24

a=\bar{y}-b\cdot \bar{x}=8,0-1,24\cdot 8,5=-2,56

…und damit ist die lineare Regressionsfunktion:

\hat{y_{i}}=-2,56+1,24\cdot x_{i}

In diesem Kontext bedeutet dies auf das Beispiel bezogen: „Ein um einen Punkt größerer Wert auf der „Liebe-Skala“ entspricht täglich 1,24 Minuten längerer Kommunikation in der Partnerschaft“.

Standardisierung von Regressionskoeffizienten

Der unstandardisierte Regressionskoeffizient b ist abhängig vom Wertebereich von X und Y. Wenn Regressionskoeffizienten miteinander verglichen werden sollen, beispielsweise bei der multiplen Regression, ist eine Standardisierung der Koeffizienten notwendig.

Berechnung:

\beta=b\cdot\frac{s_{X}}{s_Y}

β hat einen Wertebereich von 0 bis 1.

Für das Beispiel ist:

\beta=b\cdot\frac{s_{X}}{s_Y}=1,24\cdot\frac{4,99}{8,38}=0,74

Zum Vergleich: Der Korrelationskoeffizient r_XY = 0,74 ist nicht immer mit β identisch. Dass β gleich r_XY ist, gilt nur für die einfache lineare Regression. Da r_XY teils einfacher als β zu berechnen ist, kann dies Zeit sparen.

Interpretationskonvention

Betrag des Koeffizienten < 0,1: „kein Einfluss des Prädiktors auf das Kriterium“
Betrag des Koeffizienten ≥ 0,1: „mindestens ein schwacher Einfluss des Prädiktors auf das Kriterium“
Betrag des Koeffizienten ≥ 0,3: „mindestens ein mittlerer Einfluss des Prädiktors auf das Kriterium“
Betrag des Koeffizienten ≥ 0,5: „mindestens ein starker Einfluss des Prädiktors auf das Kriterium“
Betrag des Koeffizienten ≥ 0,7: „sehr starker Einfluss des Prädiktors auf das Kriterium“

Anpassungsgüte (R²)

Ein Maß zur Bestimmung der Qualität der Anpassung ist die Anpassungsgüte R², die oft auch als „Bestimmtheitsmaß“ bezeichnet wird. R² hat einen Wertebereich zwischen 0 und 1. Üblich ist die Schreibweise in Prozent, also zwischen 0% und 100%. Man kann die Gesamtvarianz zerlegen, in die Varianz der vorhergesagten Werte des Mittelwertes und die sogenannte Rest- oder auch unerklärte Varianz vom beobachteten Wert zum vorhergesagten Wert. Die Anpassungsgüte gibt somit den Anteil des Kriteriums an, welcher durch die Varianz der Prädiktoren erklärt werden kann.

\color{black}{y_{i}=}\color{red}{a+b\cdot x_{i}}+\color{blue}{e_{i}}

\color{black}{\frac{1}{N-1}\cdot\sum_{i=1}^N(y_{i}-\bar{y})^{2}=}\color{red}{\frac{1}{N-1}\cdot\sum_{i=1}^N(\hat{y_{i}}-\bar{y})^{2}}+\color{blue}{\frac{1}{N-1}\cdot\sum_{i=1}^N({y_{i}}-\hat{y_{i}})^{2}}

\color{black}{s_Y^2=} \color{red}{s_{\hat{Y}}^2}+\color{blue}{s_e^2}

\color{black}{s_Y^2}

= Varianz der beobachteten Werte des Kriteriums Y

\color{red}{s_{\hat{Y}}^2}

= Varianz der vorhergesagten Werte (ŷ),d.h.die durch X „erklärte“ Varianz

\color{blue}{s_e^2}

= Restvarianz bzw.„unerklärte“ Varianz

Berechnet wird die Anpassungsgüte R² aus dem Anteil der Varianz der vorhergesagten Werte (ŷ) an der Varianz der beobachteten Werte des Kriteriums Y.

R^{2}=\frac{s_{\hat{Y}}^2}{s_{Y}^2}

Bei der einfachen linearen Regression darf angenommen werden:

R^{2}=\beta^{2}=r_{XY}^2

Die Anpassungsgüte wird mit drei gültigen Stellen angegeben. Im Beispiel wäre zu formulieren: „Es lassen sich 54,6% der Varianz der Kommunikation durch die Zuneigung erklären.“

Signifikanztest des Regressionskoeffizienten b

Um zu prüfen, ob das empirische Regressionsgewicht b mit hinreichender Sicherheit aus einer Grundgesamtheit stammt, in der das wahre Regressionsgewicht gleich Null ist, wird der Signifikanztest des Regressionskoeffizienten b berechnet. Die Nullhypothese nimmt ein Regressionsgewicht gleich Null an.

Zweiseitiges Problem (einseitige Testung empfiehlt sich häufig):

H_{0}:b=0

H_{1}:b\neq0

Signifikanztest:

t=\frac{b}{SE_{b}}\qquad mit \qquad df=N-2

SE_{b}(auch\,s_b\, Standartfehler\, des\, Regressionskoeffizienten)=\frac{s_{e}}{\sqrt{QS_{X}}}

s_{e}=\sqrt{\frac{\sum_{i=1}^N e_i^2}{N-2}}

QS_{X}=\sum_{i=1}^N(x_{i}-\bar{x})^2

Testentscheidung nach festgelegtem Signifikanzniveau:

Der kritische Wert t_krit kann unter Berücksichtigung des Signifikanzniveaus 𝛼 und der Freiheitsgrade df aus der t-Verteilungstabelle ausgelesen werden.
H₀ wird abgelehnt, wenn | t | > t_krit

Für das Beispiel ist:

SE_{b}=0,40

t=\frac{b}{SE_{b}}=\frac{1,24}{0,40}=3,10 \qquad mit \qquad df=N-2=10-2=8

Der kritische Wert bei 𝛼 = 0,05 für df = 8 lautet t_krit = 2,31.

Testentscheidung

Da | t | = 3,10 > t_krit wird H₀ abgelehnt und H₁ darf angenommen werden.

b) Multiple lineare Regression

Bei der multiplen linearen Regression wird das Kriterium (Y) auf zwei oder mehr Prädiktoren (X₁ , X₂ , …, X_k) zurückgeführt. Ziel ist das Auffinden einer Regressionsgeraden, die die (multidimensionale) Punktewolke möglichst gut abbildet. Die lineare Regressionsfunktion für k Prädiktoren lässt sich so darstellen:

Y=a+b_{1}\cdot X_{1}+b_{2}\cdot X_{2}+...+b_{k}\cdot X_{k}+e

Anhand der k-Stück standardisierten Regressionskoeffizienten (𝛽, „Betas“) lässt sich beurteilen, welche Prädiktoren besser und welche schlechter für eine Vorhersage geeignet sind.

Gestufter Einschluss von Prädiktoren

Es werden zwei Methoden angewandt, um zu entscheiden, welche Prädiktoren für eine Vorhersage ausgeschlossen werden sollten.

Der hierarchische Einschluss von Prädiktoren ist – wenn theoretisch fundiert und theoriegeleitet – der Goldstandart. Dabei gehen einzelne Prädiktoren oder Blöcke von Prädiktoren in einer vorab definierten Reihenfolge in die Berechnung ein. So lässt sich prüfen, welche zusätzliche Erklärungskraft durch den Einschluss bestimmter Prädiktoren erzielt wird („Änderung in R²„).

Die zweite Methode ist der schrittweise Einschluss von Prädiktoren, die anhand statistischer Kriterien in die Regression aufgenommen oder entfernt werden, um die erklärte Varianz zu maximieren, jedoch wird dabei die Entscheidung über Inklusion bzw. Exklusion von Prädiktoren der Software überlassen.

Voraussetzungen für die lineare Regression

Für eine sinnvolle Interpretation müssen Voraussetzungen erfüllt sein:

Die Variablen müssen metrisch skaliert sein.
Die Variablen müssen normalverteilt sein.
Der Zusammenhang zwischen den Variablen muss im ausgegebenen Streudiagramm linear erscheinen.
Der Fehlerterm muss unabhängig sein. Der Durbin-Watson-Koeffizient sollte idealerweise 2 sein. Werte zwischen 1 und 3 lassen sich aber noch rechtfertigen.
Multikollinearität muss ausgeschlossen werden. Die Diagnose sollte VIF-Werte kleiner 10 und eine Toleranz größer 0,1 ergeben. Nur dann darf eine Unabhängigkeit der Prädiktoren angenommen werden.
Die Residuen für die einzelnen Beobachtungen müssen unkorreliert sein.
Die Residuen müssen normalverteilt sein.
Homoskedastizität der Residuen muss angenommen werden dürfen: Die Varianz der Residuen muss unabhängig von den x‐Werten sein.
Alle relevanten Variablen müssen berücksichtigt werden.
Ausreißer können die Schätzung stark verzerren und sollten, wenn möglich, ausgeschlossen werden.

Einfache lineare Regression in R

Die Funktion regress() aus dem tidycomm-Package berechnet den unstandardisierten Regressionskoeffizienten b und den standardisierten Regressionskoeffizienten 𝛽. Als Kriterium ist die zuerst genannte Variable definiert.

Dazu wird der Signifikanztest mit seinem t– und p-Wert durchgeführt und die Anpassungsgüte ausgegeben. Damit zusammenhängend wird eine Varianzanalyse mit einem F-Wert ausgegeben, um die Signifikanz des Gesamtmodells zu prüfen. Für den WoJ-Datensatz, für den Journalist:innen befragt wurden, lassen sich so Regressionen errechnen.

Befehl:

WoJ %>% regress(autonomy_selection, ethics_1)

Ausgabe:

# A tibble: 2 × 6
  Variable          B StdErr    beta     t       p
* <chr>         <dbl>  <dbl>   <dbl> <dbl>   <dbl>
1 (Intercept)  3.99   0.0481 NA      82.9  0      
2 ethics_1    -0.0689 0.0259 -0.0766 -2.66 0.00798
# F(1, 1195) = 7.061023, p = 0.007983, R-square = 0.005874

Es ist auch möglich eine lineare Modellierung mehrerer Prädiktoren durchzuführen. Hier wird die schrittweise Regressionsmodellierung verwendet:

Befehl:

WoJ %>% regress(ethics_1, autonomy_selection, work_experience)

Ausgabe:

# A tibble: 3 × 6
  Variable                  B  StdErr    beta     t        p
* <chr>                 <dbl>   <dbl>   <dbl> <dbl>    <dbl>
1 (Intercept)         2.03    0.129   NA      15.8  5.32e-51
2 autonomy_selection -0.0692  0.0325  -0.0624 -2.13 3.32e- 2
3 work_experience    -0.00762 0.00239 -0.0934 -3.19 1.46e- 3
# F(2, 1181) = 8.677001, p = 0.000182, R-square = 0.014482

Dabei sollten gleich die Voraussetzungen für die lineare Regression (z. B. Multikollinearität und Homoskedastizität) überprüft werden. Dafür müssen optionale Argumente/Parameter angegeben werden.

Befehl:

WoJ %>% regress(ethics_1, autonomy_selection, work_experience,
                check_independenterrors = TRUE, #Durbin-Watson-Tests
                check_multicollinearity = TRUE, #Variance Inflation Factor (VIF) und Toleranz (1/VIF)
                check_homoscedasticity = TRUE   #Breusch-Pagan-Tests
               )

Ausgabe:

# A tibble: 3 × 8
  Variable                B  StdErr    beta     t        p   VIF tolerance
* <chr>               <dbl>   <dbl>   <dbl> <dbl>    <dbl> <dbl>     <dbl>
1 (Intercept)       2.03    0.129   NA      15.8  5.32e-51 NA       NA    
2 autonomy_select… -0.0692  0.0325  -0.0624 -2.13 3.32e- 2  1.03     0.974
3 work_experience  -0.00762 0.00239 -0.0934 -3.19 1.46e- 3  1.03     0.974
# F(2, 1181) = 8.677001, p = 0.000182, R-square = 0.014482
- Check for independent errors: Durbin-Watson = 2.037690 (p = 0.490000)
- Check for homoscedasticity: Breusch-Pagan = 6.966472 (p = 0.008305)
- Check for multicollinearity: VIF/tolerance added to output

Visualisierung von Regressionen in R

Mit der visualize()-Funktion lassen sich die Regressionen graphisch darstellen. Für Hilfe bei der Interpretation der Regressionsdiagramme kann man den Hilfebefehl ?visualize() eingeben und nach unten scrollen, bis man zu regress() gelangt. Für Fragen zur regress()-Funktion kann man den Hilfebefehl ?regress() nutzen.

1. Basis-Visualisierung:

Befehl:

WoJ %>%
  regress(ethics_1, autonomy_selection, work_experience) %>%
  visualize()

Ausgabe:

2. Korrelogramm der Prädiktoren:

Befehl:

WoJ %>%
  regress(ethics_1, autonomy_selection, work_experience) %>%
  visualize(which = "correlogram")

Ausgabe:

3. Residuals-versus-fitted plot zur Bestimmung von deren Verteilungen:

Befehl:

WoJ %>%
  regress(ethics_1, autonomy_selection, work_experience) %>%
  visualize(which = "resfit")

Ausgabe:

4. Normales Wahrscheinlichkeits-Diagramm zur Überprüfung auf Multikollinearität:

Befehl:

WoJ %>%
  regress(ethics_1, autonomy_selection, work_experience) %>%
  visualize(which = "pp")

Ausgabe:

5. Scale-location (manchmal auch spread-location/Streuungslage genannt), um zu prüfen, ob die Residuen gleichmäßig verteilt sind (um die Homoskedastizität zu prüfen):

Befehl:

WoJ %>%
  regress(ethics_1, autonomy_selection, work_experience) %>%
  visualize(which = "scaloc")

Ausgabe:

6. Residuen-gegen-Mittelwert-Diagramm zur Überprüfung auf einflussreiche Ausreißer, die das endgültige Modell stärker beeinflussen als den Rest der Daten:

Befehl:

WoJ %>%
  regress(ethics_1, autonomy_selection, work_experience) %>%
  visualize(which = "reslev")

Ausgabe:

Korrelationen berichten

Notwendige Informationen

Stichprobengröße
Stärke des Einflusses
Richtung des Einflusses bzw. Vorzeichen der Regressionskoeffizienten
Signifikanz und jeweiliges Signifikanzniveau des Einflusses mit t– und p-Wert
Informationen zur Stichprobengröße (N oder df)
Anpassungsgüte
Kontextualisierung von b: Um wie viel verändert sich das Kriterium, wenn der Prädiktor um eine Zähleinheit erhöht wird.
Einseitige oder zweiseitige Testung

Beispielbericht

„Wir können auch bei einseitiger Testung nicht annehmen, dass der Prädiktor Zustimmung zur Aussage „Journalisten sollten sich unabhängig von der Situation und dem Kontext immer an berufsethische Regeln halten“ das Kriterium der wahrgenommenen Autonomie bei der Auswahl von Nachrichten beeinflusst. Der Einfluss ist zwar statistisch signifikant, jedoch zu gering. Nur etwa 0,6% der Varianz des Kriteriums lassen sich auf den Prädiktor zurückführen (df = 1195; b = -0,069; 𝛽 = -,008; t = -2.66; p < ,010; R² = ,006).“

Lineare Regression

a) Einfache lineare Regression

Lineare Regressionsfunktion:

Beispiel

Berechnung der Parameter einer einfachen linearen Regressionsfunktion

Standardisierung von Regressionskoeffizienten

Interpretationskonvention

Anpassungsgüte (R2)

Signifikanztest des Regressionskoeffizienten b

b) Multiple lineare Regression

Gestufter Einschluss von Prädiktoren

Voraussetzungen für die lineare Regression

Einfache lineare Regression in R

Visualisierung von Regressionen in R

Korrelationen berichten

Notwendige Informationen

Beispielbericht

Anpassungsgüte (R²)