Resumé: R-lineær regression bruger lm () – funktionen til at oprette en regressionsmodel givet nogle formel, i form af Y~X+X2. For at se på modellen bruger du funktionen resum. (). For at analysere resterne trækker du $resid-variablen ud af din nye model. Rester er forskellene mellem forudsigelsen og de faktiske resultater, og du skal analysere disse forskelle for at finde måder at forbedre din regressionsmodel på.,

for at gøre lineær (enkel og flere) regression i R har du brug for den indbyggede lm-funktion.

Her er de data, vi vil bruge, et års markedsføringsforbrug og virksomhedssalg efter måned.,

10 12000 131348 11 7000 78504 12 3000 36284

hvis vi Antager at du har downloadet den CSV, vi vil læse data i R, og kalder det datasæt, variable

en Simpel (Variabel) og Multipel Lineær Regression ved Hjælp af lm()

predictor (eller uafhængige) variabel for vores lineær regression, der vil blive brugt (bemærk den kapitaliserede S) og den afhængige variabel (den ene forsøger vi at forudsige) vil være Salg (igen, kapital S).,

lm-funktionen har virkelig bare brug for en formel (Y~~) og derefter en datakilde. Vi bruger Salg~bruger, data=datasæt, og vi kalder den resulterende lineære model”fit”.

simple.fit = lm(Sales~Spend, data=dataset)summary(simple.fit)multi.fit = lm(Sales~Spend+Month, data=dataset)summary(multi.fit)

meddelelser om multi.fit line Brugervariablerne ledsages af Månedsvariablen og et plustegn (+). Plustegnet inkluderer Månedsvariablen i modellen som en forudsigelsesvariabel (uafhængig).

resum functionfunktionen udsender resultaterne af den lineære regressionsmodel.,

Output til R ‘ s lm Funktion viser den formel, der anvendes, og summarisk statistik for de rester, de koefficienter (eller vægt) af prædiktor variabel, og endelig ydeevne foranstaltninger, herunder RMSE, R-kvadreret, og F-Statistik.

begge modeller har betydelige modeller (se F-statistikken for Regression), og de mange r-kvadrerede og justerede R-kvadrerede er begge usædvanligt høje (husk, dette er et forenklet eksempel)., Vi ser også, at alle variable er signifikante (som angivet af “**”)

Fortolkningen af R ‘ s Regression Output

  • Residualer: afsnittet opsummerer de rester, fejlen mellem forudsigelse af modellen, og de faktiske resultater. Mindre rester er bedre.
  • koefficienter: for hver variabel og opfangningen produceres en vægt, og denne vægt har andre egenskaber som standardfejlen, en T-testværdi og betydning.
    • estimat :dette er vægten givet til variablen., I den enkle regressionssag (en variabel plus intercept) forudsiger modellen for hver enkelt dollar stigning i Forbrug en stigning på $10.6222.
    • Std. Fejl: fortæller dig, hvor præcist blev estimatet målt. Det er virkelig kun nyttigt til beregning af t-værdien.
    • t-værdi og Pr (>): t-værdien beregnes ved at tage koefficienten divideret med Std. Fejl. Det bruges derefter til at teste, om koefficienten er signifikant forskellig fra nul., Hvis det ikke er signifikant, tilføjer koefficienten virkelig ikke noget til modellen og kan tabes eller undersøges yderligere. Pr (> / t/) er signifikansniveauet.

  • præstationsmål: tre sæt målinger leveres.
    • resterende standardfejl: dette er standardafvigelsen for resterne. Mindre er bedre.
    • Multiple / justeret R-S .uare: for en variabel betyder sondringen ikke rigtig noget. R-s .uared viser mængden af varians forklaret af modellen., Justeret R-S .uare tager højde for antallet af variabler og er mest nyttigt til multipelregression.
    • f-statistik: f-testen kontrollerer, om mindst en variabels vægt er signifikant forskellig fra nul. Dette er en global test for at hjælpe med at vurdere en model. Hvis p-værdien ikke er signifikant (f.større end 0,05) end din model, gør du i det væsentlige ikke noget.

har du brug for mere konkrete forklaringer? Jeg forklarer resum output output på denne side.

med beskrivelserne ude af vejen, lad os begynde at fortolke.,

Residualer: Vi kan se, at den multiple regressionsmodel har et mindre udvalg til den residualer: -3385 at 3034 vs. -1793 til 1911. For det andet er medianen for den multiple regression meget tættere på 0 end den enkle regressionsmodel.

  • koefficienter:
    • (Intercept): interceptet er tilovers, når du gennemsnit den uafhængige og afhængige variabel. I den enkle regression ser vi, at opfangningen er meget større, hvilket betyder, at der er en hel del tilbage., Multiple regression viser en negativ aflytning, men det er tættere på nul end den simple regression output.brug: både enkel og flere regression viser, at for hver dollar du bruger, bør du forvente at få omkring 10 dollars i salg.måned: når vi tilføjer Månedsvariablen, multiplicerer den denne variabel gange den numeriske (ordinære) værdi i måneden. Så for hver måned du er i året, tilføjer du en ekstra 541 i salget. Så Februar tilføjer i $ 1,082 mens December tilføjer $ 6,492 i salg.,
  • resultatmål:
    • Resterende Standard Fejl: Den simple regressionsmodel har en meget højere standard error, hvilket betyder, at resterne har en større varians. En 2,313 standardfejl er temmelig høj i betragtning af det gennemsnitlige salg er $70,870.
    • Multiple / justeret R-S .uare: R-S .uared er meget høj i begge tilfælde. Den justerede R-S .uare tager højde for antallet af variabler, og det er derfor mere nyttigt for den multiple regressionsanalyse.
    • f-statistik: f-testen er statistisk signifikant., Dette betyder, at begge modeller har mindst en variabel, der er væsentligt anderledes end nul.

analyse af rester

enhver kan passe til en lineær model i R. den virkelige test analyserer resterne (fejlen eller forskellen mellem faktiske og forudsagte resultater).

Der er fire ting, vi leder efter, når vi analyserer rester.

  • gennemsnittet af fejlene er nul (og summen af fejlene er nul)
  • fordelingen af fejlene er normal.
  • alle fejlene er uafhængige.,variansen af fejl er konstant (Homoscedastic)

I R trækker du restene ud ved at henvise til modellen og derefter resid-variablen inde i modellen. Brug af den enkle lineære regressionsmodel (simpel.fit) vi vil plotte et par grafer for at hjælpe med at illustrere eventuelle problemer med modellen.

rester distribueres normalt

histogrammet og Q.-plottet er måderne til visuelt at vurdere, om de resterende passer til en normal fordeling.

  • hvis histogrammet ligner en klokkekurve, kan det normalt distribueres.,
  • hvis Q.-plottet har langt de fleste punkter på eller meget nær linjen, kan restene normalt fordeles.

plottene ser ikke ud til at være meget tæt på en normal fordeling, men vi kan også bruge en statistisk test.

Jar Berue-Bera-testen (i fBasics-biblioteket, der kontrollerer, om skævheden og kurtosen i dine rester svarer til en normal fordeling.

  • nulhypotesen af jarque-bera testen er, at skewness og kurtosis af dine data er både lig med nul (samme som den normale fordeling).

med en p-værdi på 0.,6195, undlader vi at afvise nulhypotesen om, at skævhed og kurtose af rester er statistisk lig med nul.

rester er uafhængige

Durbin-.atson-testen bruges i tidsserieanalyse til at teste, om der er en tendens i dataene baseret på tidligere tilfælde – f.eks. en sæsonbestemt tendens eller en tendens hvert andet datapunkt.

Ved hjælp af lmtest-biblioteket kan vi kalde funktionen “d .test” på modellen for at kontrollere, om resterne er uafhængige af hinanden.

  • nulhypotesen for Durbin-.atson-testen er, at fejlene er serielt ukorrelerede.,

baseret på resultaterne kan vi afvise nullhypotesen om, at fejlene er serielt ukorrelerede. Det betyder, at vi har mere arbejde at gøre.

lad os prøve at gennemgå disse bevægelser for den multiple regressionsmodel.

Residualer er normalfordelte

  • Histogram af residualer ser ikke normalt fordelt.
  • Q.-plottet viser dog kun en håndfuld punkter ud af den normale linje.
  • vi undlader at afvise Jar Berue-Bera null hypotese (p-værdi = 0.,5059)

Residualer er uafhængige

  • Vi undlader at afvise Durbin-Watson test af null-hypotesen (p-værdi 0.3133)

Residualer har konstant varians

Konstant varians kan kontrolleres ved at se på “Studentized” residualer – normaliseret baseret på standardafvigelsen. “Studenti .ing” lader dig sammenligne rester på tværs af modeller.

multi Fit Studentizeded Residuals plot viser, at der ikke er nogen indlysende outliers. Hvis et punkt er langt ud over de andre punkter i plottet, så vil du måske undersøge., Baseret på plottet ovenfor, Jeg tror, vi er okay at antage den konstante varians antagelse. Flere data vil helt sikkert hjælpe med at udfylde nogle af hullerne.

Recap/Highlights

  • Regression er et kraftfuldt værktøj til at forudsige numeriske værdier.
  • R ‘ S lm-funktion skaber en regressionsmodel.
  • brug resum functionfunktionen til at gennemgå vægt og ydelsesmålinger.
  • resterne kan undersøges ved at trække på $resid-variablen fra din model.
  • du skal kontrollere dine rester mod disse fire antagelser.,
    • gennemsnittet af fejlene er nul (og summen af fejlene er nul).
    • fordelingen af fejlene er normale.
    • alle fejlene er uafhængige.
    • Varians af fejl er konstant (Homoscedastic)

Her er den fulde nedenstående kode

Korrektioner:

  • Tak til Thiam Huat for korrektion på koefficient fortolkning.

Written by 

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *