Zusammenfassung: Die lineare Regression von R verwendet die lm () – Funktion, um ein Regressionsmodell mit einer Formel in Form von Y~X+X2 zu erstellen. Um das Modell zu betrachten, verwenden Sie die Funktion summary (). Um die Residuen zu analysieren, ziehen Sie die Variable $resid aus Ihrem neuen Modell heraus. Residuen sind die Unterschiede zwischen der Vorhersage und den tatsächlichen Ergebnissen, und Sie müssen diese Unterschiede analysieren, um Wege zur Verbesserung Ihres Regressionsmodells zu finden.,

Um eine lineare (einfache und multiple) Regression in R durchzuführen, benötigen Sie die integrierte lm-Funktion.

Hier sind die Daten, die wir verwenden werden, ein Jahr Marketingausgaben und Unternehmensverkäufe nach Monat.,

10 12000 131348 11 7000 78504 12 3000 36284

Angenommen, Sie haben die CSV heruntergeladen, lesen wir die Daten in R ein und nennen sie die Datensatzvariable

Einfach (eine Variable) und mehrere lineare Regression Mit lm()

Die Prädiktorvariable (oder unabhängige) für unsere lineare Regression wird ausgegeben (beachten Sie die großgeschriebenen S) und die abhängige Variable (die wir vorherzusagen versuchen) ist Umsatz (wieder Großbuchstaben).,

Die lm-Funktion benötigt wirklich nur eine Formel (Y~X) und dann eine Datenquelle. Wir verwenden Sales~Spend, data=dataset und nennen das resultierende lineare Modell „fit“.

simple.fit = lm(Sales~Spend, data=dataset)summary(simple.fit)multi.fit = lm(Sales~Spend+Month, data=dataset)summary(multi.fit)

die Hinweise auf der multi.fit line Die Ausgabevariablen werden von der Monatsvariablen und einem Pluszeichen (+) begleitet. Das Pluszeichen enthält die Monatsvariable im Modell als (unabhängige) Prädiktorvariable.

Die Summary-Funktion gibt die Ergebnisse des linearen Regressionsmodells aus.,

Ausgabe für die lm-Funktion von R mit der verwendeten Formel, den zusammenfassenden Statistiken für die Residuen, den Koeffizienten (oder Gewichten) der Prädiktorvariablen und schließlich den Leistungsmaßen einschließlich RMSE, R-Quadrat und F-Statistik.

Beide Modelle haben signifikante Modelle (siehe F-Statistik für die Regression) und die multiplen R-Quadrate und angepassten R-Quadrate sind beide außergewöhnlich hoch (denken Sie daran, dies ist ein vereinfachtes Beispiel)., Wir sehen auch, dass alle Variablen signifikant sind (wie durch das „**“angezeigt)

Interpretation der Regressionsausgabe von R

  • Residuen: Der Abschnitt fasst die Residuen zusammen, den Fehler zwischen der Vorhersage des Modells und den tatsächlichen Ergebnissen. Kleinere Residuen sind besser.
  • Koeffizienten: Für jede Variable und den Intercept wird ein Gewicht erzeugt, und dieses Gewicht hat andere Attribute wie den Standardfehler, einen T-Testwert und die Signifikanz.
    • Schätzung: Dies ist das Gewicht der Variablen., Im einfachen Regressionsfall (eine Variable plus der Intercept) prognostiziert das Modell für jede Erhöhung der Ausgaben um einen Dollar einen Anstieg von 10,6222 USD.
    • Std. Fehler: Gibt an, wie genau die Schätzung gemessen wurde. Es ist wirklich nur nützlich, um den t-Wert zu berechnen.
    • t-Wert und Pr (>): Der t-Wert wird berechnet, indem der Koeffizient durch den Std geteilt wird. Fehlermeldung. Es wird dann verwendet, um zu testen, ob der Koeffizient signifikant von Null abweicht oder nicht., Wenn es nicht signifikant ist, fügt der Koeffizient dem Modell wirklich nichts hinzu und könnte fallen gelassen oder weiter untersucht werden. Pr(>|t|) ist das Signifikanzniveau.

  • Leistungsmaße: Es werden drei Sätze von Messungen bereitgestellt.
    • Reststandardfehler: Dies ist die Standardabweichung der Residuen. Kleiner ist besser.
    • Multiple / Adjusted R-Square: Für eine Variable spielt die Unterscheidung keine Rolle. R-squared zeigt die Varianz, die durch das Modell erklärt wird., Das angepasste R-Quadrat berücksichtigt die Anzahl der Variablen und ist für die Mehrfachregression am nützlichsten.
    • F-Statistik: Der F-Test prüft, ob mindestens das Gewicht einer Variablen signifikant von Null abweicht. Dies ist ein globaler Test zur Erstellung eines Modells. Wenn der p-Wert nicht signifikant ist (z. B. größer als 0,05), tut Ihr Modell im Wesentlichen nichts.

Benötigen Sie konkretere Erklärungen? Ich erkläre die zusammenfassende Ausgabe auf dieser Seite.

Mit den Beschreibungen aus dem Weg, beginnen wir zu interpretieren.,

Residuen: Wir können sehen, dass das Multiple Regressionsmodell einen kleineren Bereich für die Residuen hat: -3385 bis 3034 vs. -1793 bis 1911. Zweitens ist der Median der multiplen Regression viel näher an 0 als das einfache Regressionsmodell.

  • Koeffizienten:
    • (Intercept): Der Intercept ist der übrig gebliebene Wert, wenn Sie die unabhängige und abhängige Variable mitteln. In der einfachen Regression sehen wir, dass der Intercept viel größer ist, was bedeutet, dass noch viel übrig ist., Multiple Regression zeigt einen negativen Intercept, ist aber näher an Null als die einfache Regressionsausgabe.
    • Verbringen: Sowohl einfache als auch multiple Regression zeigt, dass Sie für jeden Dollar, den Sie ausgeben, mit einem Umsatz von rund 10 Dollar rechnen sollten.
    • Month: Wenn wir die Monatsvariable hinzufügen, multipliziert sie diese Variable mit dem numerischen (ordinalen) Wert des Monats. Also für jeden Monat, den Sie im Jahr sind, fügen Sie zusätzliche 541 Umsatz hinzu. So fügt Februar $ 1,082 hinzu, während Dezember $ 6,492 Umsatz hinzufügt.,
  • Leistungsmaße:
    • Reststandardfehler:Das einfache Regressionsmodell weist einen viel höheren Standardfehler auf, was bedeutet, dass die Residuen eine größere Varianz aufweisen. Ein 2,313-Standardfehler ist ziemlich hoch, wenn man bedenkt, dass der durchschnittliche Umsatz $ 70,870 beträgt.
    • Multiples / angepasstes R-Quadrat: Das R-Quadrat ist in beiden Fällen sehr hoch. Das angepasste R-Quadrat berücksichtigt die Anzahl der Variablen und ist daher für die Multiple Regressionsanalyse nützlicher.
    • F-Statistik: Der F-Test ist statistisch signifikant., Dies bedeutet, dass beide Modelle mindestens eine Variable haben, die sich signifikant von Null unterscheidet.

Residuen analysieren

Jeder kann ein lineares Modell in R einfügen Der eigentliche Test analysiert die Residuen (den Fehler oder die Differenz zwischen tatsächlichen und vorhergesagten Ergebnissen).

Bei der Analyse von Residuen suchen wir vier Dinge.

  • Der Mittelwert der Fehler ist Null (und die Summe der Fehler ist Null)
  • Die Verteilung der Fehler ist normal.
  • Alle Fehler sind unabhängig.,
  • Die Varianz der Fehler ist konstant (Homoscedastic)

In R ziehen Sie die Residuen heraus, indem Sie auf das Modell und dann auf die Variable resid innerhalb des Modells verweisen. Verwenden des einfachen linearen Regressionsmodells (einfach.2) Wir zeichnen einige Diagramme, um Probleme mit dem Modell zu veranschaulichen.

Residuen sind normal verteilt

Histogramm und QQ-Plot sind die Möglichkeiten, visuell zu bewerten, ob die Residuen zu einer Normalverteilung passen.

  • Wenn das Histogramm wie eine Glockenkurve aussieht, kann es normal verteilt sein.,
  • Wenn der QQ-Plot die überwiegende Mehrheit der Punkte auf oder sehr nahe der Linie hat, können die Residuen normal verteilt sein.

Die Diagramme scheinen einer Normalverteilung nicht sehr nahe zu kommen, aber wir können auch einen statistischen Test verwenden.

Der Jarque-Bera-Test (in der fBasics-Bibliothek, der prüft, ob die Schiefe und Kurtose Ihrer Residuen der einer Normalverteilung ähnelt.

  • Die Nullhypothese des Jarque-bera-Tests ist, dass die Schiefe und Kurtose Ihrer Daten beide gleich Null sind (gleich der Normalverteilung).

Mit einem p-Wert von 0.,6195, wir lehnen die Nullhypothese nicht ab, dass die Schiefe und Kurtose von Residuen statistisch gleich Null ist.

Residuen sind unabhängig

Der Durbin-Watson-Test wird in der Zeitreihenanalyse verwendet, um zu testen, ob die Daten basierend auf früheren Instanzen einen Trend aufweisen – z. B. einen saisonalen Trend oder einen Trend jeden anderen Datenpunkt.

Mit der lmtest-Bibliothek können wir die Funktion „dwtest“ im Modell aufrufen, um zu überprüfen, ob die Residuen unabhängig voneinander sind.

  • Die Nullhypothese des Durbin-Watson-Tests ist, dass die Fehler seriell nicht korreliert sind.,

Basierend auf den Ergebnissen können wir die Nullhypothese ablehnen, dass die Fehler seriell nicht korreliert sind. Das bedeutet, wir haben mehr Arbeit zu tun.

Versuchen wir, diese Bewegungen für das Multiple Regressionsmodell durchzugehen.

Residuen sind Normal Verteilt

  • Histogramm der Residuen sieht nicht normal verteilt.
  • Der QQ-Plot zeigt jedoch nur eine Handvoll Punkte außerhalb der normalen Linie.
  • Wir lehnen die Jarque-Bera Nullhypothese nicht ab (p-Wert = 0.,5059)

Residuen sind unabhängig

  • Wir lehnen die Nullhypothese des Durbin-Watson-Tests nicht ab (p-Wert 0.3133)

Residuen haben konstante Varianz

Konstante Varianz kann durch Betrachten der „studentisierten“ Residuen überprüft werden – normalisiert basierend auf der Standardabweichung. Mit „Studentizing“ können Sie Residuen über Modelle hinweg vergleichen.

Das Multi-Studentized Residuals Plot zeigt, dass es keine offensichtlichen Ausreißer gibt. Wenn ein Punkt weit über die anderen Punkte im Diagramm hinausgeht, sollten Sie dies untersuchen., Basierend auf dem obigen Diagramm denke ich, dass wir in Ordnung sind, die Annahme der konstanten Varianz anzunehmen. Weitere Daten würden definitiv helfen, einige Lücken zu schließen.

Rückblick / Highlights

  • Regression ist ein leistungsfähiges Werkzeug zur Vorhersage numerischer Werte.
  • R ‚ s lm-Funktion erstellt ein Regressionsmodell.
  • Verwenden Sie die Zusammenfassungsfunktion, um die Gewichte und Leistungsmaße zu überprüfen.
  • Die Residuen können untersucht werden, indem Sie die Variable $resid aus Ihrem Modell ziehen.
  • Sie müssen Ihre Residuen anhand dieser vier Annahmen überprüfen.,
    • Der Mittelwert der Fehler ist Null (und die Summe der Fehler ist Null).
    • Die Verteilung der Fehler ist normal.
    • Alle Fehler sind unabhängig.
    • Varianz der fehler ist konstant (Homoscedastic)

Hier ist der vollständige Code unten

Korrekturen:

  • Dank Thiam Huat für die korrektur auf koeffizienten interpretation.

Written by 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.