Haupt » algorithmischer Handel » Multiple lineare Regression - MLR-Definition

Multiple lineare Regression - MLR-Definition

Was ist multiple lineare Regression - MLR?

Multiple lineare Regression (MLR), auch einfach als multiple Regression bezeichnet, ist eine statistische Technik, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen. Das Ziel der multiplen linearen Regression (MLR) besteht darin, die lineare Beziehung zwischen den erklärenden (unabhängigen) Variablen und der antwortenden (abhängigen) Variablen zu modellieren.

Im Wesentlichen ist die multiple Regression die Erweiterung der gewöhnlichen Regression der kleinsten Quadrate (OLS), die mehr als eine erklärende Variable umfasst.

Die Formel für die multiple lineare Regression lautet

yi = β0 + β1xi1 + β2xi2 + ... + βpxip + ϵwobei für i = n Beobachtungen gilt: yi = abhängige Variable xi = expanatorische Variablenβ0 = y-Achsenabschnitt (konstanter Term) βp = Steigungskoeffizient für jede erklärende Variableϵ = der Fehlerterm des Modells (auch als Residuen bezeichnet) \ begin {align} & y_i = \ beta_0 + \ beta_1 x_ {i1} + \ beta_2 x_ {i2} + ... + \ beta_p x_ {ip} + \ epsilon \\ & \ textbf {wobei für} i = n \ textbf {Beobachtungen:} \\ & y_i = \ text {abhängige Variable} \\ & x_i = \ text {expanatorische Variablen} \\ & \ beta_0 = \ text {y-Achsenabschnitt (Konstante term)} \\ & \ beta_p = \ text {Steigungskoeffizienten für jede erklärende Variable} \\ & \ epsilon = \ text {der Fehlerterm des Modells (auch als Residuen bezeichnet)} \\ \ end {aligned} yi = β0 + β1 xi1 + β2 xi2 + ... + βp xip + ϵwobei für i = n Beobachtungen gilt: yi = abhängige Variable xi = expanatorische Variablen β0 = y-Achsenabschnitt (konstanter Term) βp = Steigungskoeffizienten für jede erklärende Variable ϵ = der Fehlerterm des Modells (auch als Residuen bekannt)

Erklärung der multiplen linearen Regression

Eine einfache lineare Regression ist eine Funktion, die es einem Analysten oder Statistiker ermöglicht, Vorhersagen über eine Variable auf der Grundlage der Informationen zu treffen, die über eine andere Variable bekannt sind. Die lineare Regression kann nur verwendet werden, wenn zwei kontinuierliche Variablen vorhanden sind - eine unabhängige und eine abhängige Variable. Die unabhängige Variable ist der Parameter, mit dem die abhängige Variable oder das abhängige Ergebnis berechnet wird. Ein multiples Regressionsmodell erstreckt sich auf mehrere erklärende Variablen.

Das multiple Regressionsmodell basiert auf den folgenden Annahmen:

Es gibt eine lineare Beziehung zwischen den abhängigen Variablen und den unabhängigen Variablen.
Die unabhängigen Variablen sind nicht zu stark miteinander korreliert.
Die Beobachtungen werden unabhängig und zufällig aus der Population ausgewählt.
Residuen sollten normalverteilt sein mit einem Mittelwert von 0 und einer Varianz σ.

Der Bestimmungskoeffizient (R-Quadrat) ist eine statistische Metrik, die verwendet wird, um zu messen, wie viel von der Variation des Ergebnisses durch die Variation der unabhängigen Variablen erklärt werden kann. R ² steigt immer an, wenn mehr Prädiktoren zum MLR-Modell hinzugefügt werden, obwohl die Prädiktoren möglicherweise nicht mit der Ergebnisvariablen in Beziehung stehen.

R ² allein kann daher nicht verwendet werden, um zu identifizieren, welche Prädiktoren in ein Modell einbezogen und welche ausgeschlossen werden sollten. R ² kann nur zwischen 0 und 1 liegen, wobei 0 angibt, dass das Ergebnis von keiner der unabhängigen Variablen vorhergesagt werden kann, und 1 angibt, dass das Ergebnis ohne Fehler von den unabhängigen Variablen vorhergesagt werden kann.

Bei der Interpretation der Ergebnisse einer multiplen Regression sind Beta-Koeffizienten gültig, während alle anderen Variablen konstant bleiben ("alle anderen gleich"). Die Ausgabe einer Mehrfachregression kann horizontal als Gleichung oder vertikal in Tabellenform angezeigt werden.

Beispiel mit multipler linearer Regression

Ein Analyst möchte beispielsweise wissen, wie sich die Marktbewegung auf den Preis von Exxon Mobil (XOM) auswirkt. In diesem Fall hat seine lineare Gleichung den Wert des S & P 500-Index als unabhängige Variable oder Prädiktor und den Preis von XOM als abhängige Variable.

In Wirklichkeit gibt es mehrere Faktoren, die den Ausgang eines Ereignisses vorhersagen. Die Preisentwicklung von Exxon Mobil hängt zum Beispiel nicht nur von der Entwicklung des Gesamtmarktes ab. Andere Prädiktoren wie der Ölpreis, die Zinssätze und die Preisbewegungen von Ölfutures können sich auf den Preis von XOM und die Aktienkurse anderer Ölunternehmen auswirken. Um eine Beziehung zu verstehen, in der mehr als zwei Variablen vorhanden sind, wird eine multiple lineare Regression verwendet.

Multiple lineare Regression (MLR) wird verwendet, um eine mathematische Beziehung zwischen einer Anzahl von Zufallsvariablen zu bestimmen. Mit anderen Worten, MLR untersucht, wie mehrere unabhängige Variablen mit einer abhängigen Variablen verknüpft sind. Sobald jeder der unabhängigen Faktoren bestimmt wurde, um die abhängige Variable vorherzusagen, können die Informationen zu den mehreren Variablen verwendet werden, um eine genaue Vorhersage über den Grad der Auswirkung auf die Ergebnisvariable zu erstellen. Das Modell erstellt eine Beziehung in Form einer geraden Linie (linear), die sich allen einzelnen Datenpunkten am besten annähert.

Unter Bezugnahme auf die obige MLR-Gleichung in unserem Beispiel:

y _i = abhängige Variable: Preis von XOM
x _i1 = Zinssätze
x _i2 = Ölpreis
x _i3 = Wert des S & P 500 Index
x _i4 = Preis von Ölfutures
B ₀ = y-Achsenabschnitt zum Zeitpunkt Null
B ₁ = Regressionskoeffizient, der eine Änderung der Einheit in der abhängigen Variablen misst, wenn sich x _i1 ändert - die Änderung des XOM-Preises, wenn sich die Zinssätze ändern
B ₂ = Koeffizientenwert, der eine Änderung der Einheit in der abhängigen Variablen misst, wenn sich x _i2 ändert - die Änderung des XOM-Preises, wenn sich der Ölpreis ändert

Die Schätzungen der kleinsten Quadrate, B ₀, B ₁, B ₂ … B _p, werden normalerweise durch statistische Software berechnet. Es können beliebig viele Variablen in das Regressionsmodell einbezogen werden, in denen jede unabhängige Variable mit einer Zahl von 1, 2, 3, 4 ... p differenziert wird. Das multiple Regressionsmodell ermöglicht es einem Analysten, ein Ergebnis basierend auf Informationen zu mehreren erklärenden Variablen vorherzusagen.

Das Modell ist jedoch nicht immer genau, da jeder Datenpunkt geringfügig vom vom Modell vorhergesagten Ergebnis abweichen kann. Der Restwert E, der die Differenz zwischen dem tatsächlichen und dem vorhergesagten Ergebnis darstellt, wird in das Modell aufgenommen, um solche geringfügigen Abweichungen zu berücksichtigen.

Angenommen, wir führen unser XOM-Preisregressionsmodell über eine Statistik-Berechnungssoftware aus, die diese Ausgabe zurückgibt:

Ein Analyst würde diese Ausgabe so interpretieren, dass der Preis von XOM um 7, 8% steigt, wenn andere Variablen konstant gehalten werden, wenn der Ölpreis auf den Märkten um 1% steigt. Das Modell zeigt auch, dass der Preis von XOM nach einem Anstieg der Zinssätze um 1% um 1, 5% sinken wird. R ² gibt an, dass 86, 5% der Schwankungen des Aktienkurses von Exxon Mobil durch Änderungen des Zinssatzes, des Ölpreises, der Öl-Futures und des S & P 500-Index erklärt werden können.

Die zentralen Thesen

Multiple lineare Regression (MLR), auch einfach als multiple Regression bezeichnet, ist eine statistische Technik, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen.
Multiple Regression ist eine Erweiterung der linearen (OLS) Regression, die nur eine erklärende Variable verwendet.
MLR wird häufig in der Ökonometrie und in der Finanzinferenz eingesetzt.

Der Unterschied zwischen linearer und multipler Regression

Die lineare (OLS) Regression vergleicht die Reaktion einer abhängigen Variablen bei einer Änderung einer erklärenden Variablen. Es ist jedoch selten, dass eine abhängige Variable nur durch eine Variable erklärt wird. In diesem Fall verwendet ein Analyst eine multiple Regression, die versucht, eine abhängige Variable mit mehr als einer unabhängigen Variablen zu erklären. Mehrere Regressionen können linear und nichtlinear sein.

Mehrere Regressionen basieren auf der Annahme, dass zwischen den abhängigen und den unabhängigen Variablen eine lineare Beziehung besteht. Es wird auch keine größere Korrelation zwischen den unabhängigen Variablen angenommen.

Vergleich von Anlagekonten Name des Anbieters Beschreibung Angaben zum Werbetreibenden × Die in dieser Tabelle aufgeführten Angebote stammen von Partnerschaften, von denen Investopedia eine Vergütung erhält.