samenvatting: R lineaire regressie gebruikt de functie lm () om een regressiemodel te maken met een bepaalde formule, in de vorm van Y~X+X2. Om naar het model te kijken, Gebruik je de functie summary (). Om de reststoffen te analyseren, haal je de $ resid variabele uit je nieuwe model. Reststoffen zijn de verschillen tussen de voorspelling en de werkelijke resultaten en u moet deze verschillen analyseren om manieren te vinden om uw regressiemodel te verbeteren.,

om lineaire (eenvoudige en meervoudige) regressie in R uit te voeren heeft u de ingebouwde lm functie nodig.

Hier zijn de gegevens die we zullen gebruiken, één jaar marketinguitgaven en bedrijfsverkopen per maand.,

10 12000 131348 11 7000 78504 12 3000 36284

in de Veronderstelling dat u hebt gedownload van de CSV, dan lezen we de gegevens in te R en noemen het de dataset variabele

Eenvoudige (Een Variabele) en Meervoudige Lineaire Regressie met Behulp van lm()

De predictor (of onafhankelijke) variabele voor onze lineaire regressie wordt besteed (let op de hoofdletter S) en de afhankelijke variabele (de een dat we proberen te voorspellen zal zijn) zal de Verkoop weer een hoofdletter S).,

de lm-functie heeft eigenlijk alleen een formule (Y~X) en vervolgens een gegevensbron nodig. We gebruiken Sales~Spend, data=dataset en we noemen het resulterende lineaire model “fit”.

simple.fit = lm(Sales~Spend, data=dataset)summary(simple.fit)multi.fit = lm(Sales~Spend+Month, data=dataset)summary(multi.fit)

mededelingen over de multi.de Uitgavenvariabelen worden vergezeld door de Maandvariabele en een plusteken (+). Het plusteken omvat de maandvariabele in het model als een voorspeller (onafhankelijke) variabele.

De functie samenvatting geeft de resultaten van het lineaire regressiemodel.,

Output voor R ‘ s lm-functie die de gebruikte formule, de samenvattende statistieken voor de reststoffen, de coëfficiënten (of gewichten) van de voorspellende variabele, en ten slotte de prestatiemetingen inclusief RMSE, R-kwadraat en de F-statistiek toont.

beide modellen hebben significante modellen (zie de F-Statistiek voor regressie) en de meervoudige R-kwadraat en aangepaste R-kwadraat zijn beide uitzonderlijk hoog (houd in gedachten, dit is een vereenvoudigd voorbeeld)., We zien ook dat alle variabelen significant zijn (zoals aangegeven door de “**”)

interpretatie van R ‘ S Regressieoutput

  • reststoffen: de sectie vat de reststoffen samen, de fout tussen de voorspelling van het model en de werkelijke resultaten. Kleinere reststoffen zijn beter.
  • coëfficiënten: voor elke variabele en het intercept wordt een gewicht geproduceerd en dat gewicht heeft andere kenmerken zoals de standaardfout, een T-testwaarde en significantie.
    • schatting: Dit is het gewicht dat aan de variabele wordt gegeven., In het geval van eenvoudige regressie (één variabele plus de onderschepping) voorspelt het model voor elke dollar stijging van de uitgaven een stijging van $10.6222.
    • Std. Fout: vertelt u hoe precies werd de schatting gemeten. Het is eigenlijk alleen nuttig voor het berekenen van de t-waarde.
    • t-waarde en Pr (>): de T-waarde wordt berekend door de coëfficiënt gedeeld door de Std. Fout. Het wordt vervolgens gebruikt om te testen of de coëfficiënt significant verschilt van nul., Als het niet significant is, dan is de coëfficiënt echt niets toe te voegen aan het model en kan worden gedaald of verder onderzocht. Pr (> / t/) is het significantieniveau.

  • prestatiemetingen: Er worden drie reeksen metingen verstrekt.
    • resterende standaardfout: dit is de standaardafwijking van de reststoffen. Kleiner is beter.
    • Multiple / Adjusted R-Square: voor één variabele maakt het onderscheid niet echt uit. R-kwadraat toont de hoeveelheid variantie verklaard door het model., Aangepast R-vierkant houdt rekening met het aantal variabelen en is het meest nuttig voor multiple-regressie.
    • F-statistiek: de F-test controleert of het gewicht van ten minste één variabele significant verschilt van nul. Dit is een wereldwijde test om een model te helpen beoordelen. Als de p-waarde niet significant is (bijvoorbeeld groter dan 0,05) dan doet uw model in wezen niets.

meer concrete uitleg nodig? Ik leg samenvatting output op deze pagina.

met de beschrijvingen uit de weg, laten we beginnen met interpreteren.,

reststoffen: we kunnen zien dat het multiple regression model een kleiner bereik heeft voor de reststoffen: -3385 tot 3034 vs.-1793 tot 1911. Ten tweede is de mediaan van de meervoudige regressie veel dichter bij 0 dan het eenvoudige regressiemodel.

  • coëfficiënten:
    • (Intercept): het intercept is de rest als je de onafhankelijke en afhankelijke variabele gemiddeld. In de simpele regressie zien we dat de onderschepping veel groter is, wat betekent dat er een behoorlijke hoeveelheid overblijft., Meerdere regressie toont een negatieve onderschepping maar het is dichter bij nul dan de eenvoudige regressie uitgang.
    • besteden: zowel eenvoudige als meervoudige regressie laat zien dat voor elke dollar die je uitgeeft, je ongeveer 10 dollar aan verkopen zou moeten verwachten.
    • maand: wanneer we de Maandvariabele optellen vermenigvuldigt deze variabele met de numerieke (ordinale) waarde van de maand. Dus voor elke maand dat je in het jaar bent, voeg je een extra 541 in de verkoop. Dus februari voegt in $ 1,082 terwijl December voegt $ 6,492 in de verkoop.,
  • prestatiemetingen:
    • resterende standaardfout: het eenvoudige regressiemodel heeft een veel hogere standaardfout, wat betekent dat de reststoffen een grotere variantie hebben. Een 2.313 standaard fout is vrij hoog gezien de gemiddelde omzet is $ 70.870.
    • meervoudig / aangepast R-kwadraat: het R-kwadraat is in beide gevallen zeer hoog. Het aangepaste R-kwadraat houdt rekening met het aantal variabelen en is dus nuttiger voor de meervoudige regressieanalyse.
    • F-statistisch: de F-test is statistisch significant., Dit betekent dat beide modellen ten minste één variabele hebben die significant verschilt van nul.

het analyseren van reststoffen

Iedereen kan in een lineair model in R. passen. de echte test is het analyseren van de reststoffen (de fout of het verschil tussen de werkelijke en voorspelde resultaten).

Er zijn vier dingen die we zoeken bij het analyseren van reststoffen.

  • Het gemiddelde van de fouten is nul (en de som van de fouten is nul)
  • de verdeling van de fouten is normaal.
  • alle fouten zijn onafhankelijk.,
  • variantie van fouten is constant (Homoscedastisch)

In R, trek je de reststoffen eruit door te verwijzen naar het model en dan de resid variabele in het model. Gebruikmakend van het simple linear regression model (simple.fit) we zullen een paar grafieken plotten om eventuele problemen met het model te illustreren.

reststoffen worden normaal verdeeld

het histogram en de QQ-plot zijn de manieren om visueel te beoordelen of het restant past bij een normale verdeling.

  • als het histogram eruit ziet als een bell-curve kan het normaal worden verdeeld.,
  • als het QQ-perceel de overgrote meerderheid van de punten op of zeer dicht bij de lijn heeft, mogen de reststoffen normaal worden verdeeld.

de plots lijken niet erg dicht bij een normale verdeling te liggen, maar we kunnen ook een statistische test gebruiken.

de Jarque-Bera test (in de fBasics library, die controleert of de scheefheid en kurtose van je reststoffen vergelijkbaar zijn met die van een normale distributie.

  • de nulhypothese van de jarque-bera-test is dat scheefheid en kurtose van uw gegevens beide gelijk zijn aan nul (hetzelfde als de normale verdeling).

met een p-waarde van 0.,6195, slagen we er niet in om de nulhypothese te verwerpen dat de scheefheid en kurtose van reststoffen statistisch gelijk zijn aan nul.

reststoffen zijn onafhankelijk

De Durbin-Watson-test wordt gebruikt in tijdreeksanalyse om te testen of er een trend is in de gegevens op basis van eerdere gevallen – bijvoorbeeld een seizoensgebonden trend of een trend om het andere gegevenspunt.

met behulp van de lmtest bibliotheek, kunnen we de “dwtest” functie op het model aanroepen om te controleren of de reststoffen onafhankelijk van elkaar zijn.

  • de nulhypothese van de Durbin-Watson-test is dat de fouten serieel niet gecorreleerd zijn.,

Op basis van de resultaten kunnen we de nulhypothese afwijzen dat de fouten serieel niet gecorreleerd zijn. Dit betekent dat we meer werk te doen hebben.

laten we proberen deze bewegingen te volgen voor het multiple regression model.

residuen worden normaal verdeeld

  • Histogram van residuen ziet er niet normaal verdeeld uit.
  • echter, de QQ-Plot toont slechts een handvol punten van de normale lijn.
  • we slagen er niet in de nulhypothese van Jarque-Bera te verwerpen (p-waarde = 0.,5059)

reststoffen zijn onafhankelijk

  • de nulhypothese van de Durbin-Watson-test (P – waarde 0,3133)

reststoffen hebben constante variantie

constante variantie kan worden gecontroleerd door te kijken naar de “Studented” reststoffen-genormaliseerd op basis van de standaardafwijking. “Studentizing” laat je reststoffen vergelijken tussen modellen.

De Multi Fit Studentized Residuals plot laat zien dat er geen duidelijke uitschieters zijn. Als een punt is ver buiten de andere punten in de plot, dan wilt u misschien om te onderzoeken., Gebaseerd op het plot hierboven, denk ik dat we de constante variantie veronderstelling kunnen aannemen. Meer gegevens zouden zeker helpen bij het invullen van een aantal van de hiaten.

Recap/Highlights

  • regressie is een krachtig hulpmiddel voor het voorspellen van numerieke waarden.de lm-functie van
  • R maakt een regressiemodel aan.
  • gebruik de functie Samenvatting om de gewichten en prestatiemetingen te beoordelen.
  • de reststoffen kunnen worden onderzocht door de $resid variabele uit uw model te trekken.
  • u moet uw residuals vergelijken met deze vier veronderstellingen.,
    • Het gemiddelde van de fouten is nul (en de som van de fouten is nul).
    • de verdeling van de fouten is normaal.
    • alle fouten zijn onafhankelijk.
    • variantie van fouten is constant (Homoscedastisch)
  • Hier volgt de volledige code

    correcties:

    • dankzij Thiam Huat voor de correctie op de interpretatie van de coëfficiënt.

Written by 

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *