Oppsummering: R lineær regresjon bruker lm () – funksjonen til å opprette en regresjonsmodell gitt noen formel, i form av Y~X+X2. For å se på modellen, kan du bruke sammendrag () – funksjonen. For å analysere rester, trekker du ut $res variable fra den nye modellen. Restene er forskjellene mellom prediksjon og faktiske resultater, og du trenger å analysere disse forskjellene er å finne måter å forbedre din regresjonsmodell.,

for Å gjøre lineær (enkel og multippel) regresjon i R du trenger innebygd film-funksjonen.

Her er de data vi vil bruke ett år av markedsføringen og salg av måneden.,

10 12000 131348 11 7000 78504 12 3000 36284

hvis du har lastet ned CSV-filen, vil vi lese dataene i å R og kaller det datasettet variabel

Enkel (En Variabel) og Multippel Lineær Regresjon ved Hjelp av lm()

Den predictor (eller uavhengig) variabel for våre lineær regresjon vil Bruke (legg merke til den balanseførte S) og den avhengige variabelen (den vi prøver å forutsi) vil bli Salg (igjen, hovedstaden S).,

lm-funksjonen egentlig bare trenger en formel (Y~X) og deretter en datakilde. Vi vil bruke Salg~Bruke, data=datasettet og vi kaller den resulterende lineær modell som er «passe».

simple.fit = lm(Sales~Spend, data=dataset)summary(simple.fit)multi.fit = lm(Sales~Spend+Month, data=dataset)summary(multi.fit)

Meldinger på multi.passer linje Bruke variabler er ledsaget av Måneden variabel og et plusstegn (+). Plusstegnet inkluderer Måned variable i modellen som en prediktor (uavhengig) variabel.

oppsummering-funksjonen returnerer resultater av lineær regresjonsmodell.,

Utgang for R ‘ s lm-Funksjon som viser formelen som er brukt, den oppsummerende statistikk for restene koeffisientene (eller vekt) av prediktor variabel, og til slutt arbeidsmål inkludert RMSE, R-squared, og F-Statistikk.

Begge modeller har betydelig modeller (se F-Statistikk for Regresjon) og Multiple R-squared og Justert R-kvadrert er begge svært høy (husk, dette er et forenklet eksempel)., Vi ser også at alle variablene er signifikante (som indikert av «**»)

Tolke R s Regresjon Utgang

  • Restene: avsnittet oppsummerer restene feilen mellom prediksjon av modellen og de faktiske resultatene. Mindre rester er bedre.
  • Koeffisienter: For hver variabel, og fange opp, en vekt er produsert, og at vekt har andre egenskaper som standard feil, en t-test verdi og betydning.
    • Estimere: Dette er den vekt som er gitt til variabelen., I enkel regresjon tilfelle (en variabel pluss skjæringspunkt), for hver eneste dollar økning i Bruke modellen forutsier en økning på $10.6222.
    • Std. Feil: Forteller deg hvordan nettopp var anslaget målt. Det er egentlig bare nyttig for beregning av t-verdi.
    • t-verdi og Pr(>): t-verdien er beregnet ved å ta koeffisient delt av Std. Feil. Det er da brukt for å teste om eller ikke-koeffisienten er signifikant forskjellig fra null., Hvis det ikke er signifikante, så koeffisienten er virkelig ikke å legge noe til modellen, og den kan bli droppet eller undersøkt videre. Pr(>|t|) er betydningen nivå.

  • Ytelse Tiltak: Tre sett av målinger er gitt.
    • Residual Standard Error: Dette er standard avvik av restene. Mindre er bedre.
    • Flere / Justert R-Kvadrat: For en variabel, skillet spiller egentlig ingen rolle. R-squared viser hvor mye av variansen forklares av modellen., Justert R-Kvadrat tar hensyn til antall variabler og er mest nyttig for flere-regresjon.
    • F-Statistikk: F-testen sjekker om minst én variabel vekt er betydelig annerledes enn null. Dette er en global test for å hjelpe oss en modell. Hvis p-verdien er ikke signifikant (f.eks. større enn 0.05) enn din modell er egentlig ikke gjør noe.

Trenger mer konkrete forklaringer? Jeg forklarer oppsummering utgang på denne siden.

Med beskrivelser ut av veien, la oss begynne å tolke.,

Restene: Vi kan se at flere regresjonsmodell har et mindre utvalg for rester: -3385 å 3034 vs. -1793 til 1911. For det andre median i multippel regresjon er mye nærmere 0 enn den enkle regresjonsmodellen.

  • Koeffisienter:
    • (Intercept): skjæringspunktet er igjen når du gjennomsnitt uavhengig og avhengig variabel. I enkel regresjon ser vi at skjæringspunktet er mye større, og det betyr at det er en god del igjen., Multippel regresjon viser en negativ fange opp, men det er nærmere null enn den enkle regresjon utgang.
    • Bruke: Både enkel og multippel regresjon viser at for hver krone du bruker, bør du forvente å få rundt 10 dollar i salg.
    • Måned: Når vi legg til i Måneden variabel det er å multiplisere denne variabelen ganger numerisk (ordenstallet) verdi av måneden. Så for hver måned du er i år, legger du til en ekstra 541 i salg. Slik februar legger i $1,082 mens desember legger til $6,492 i Salg.,
  • Ytelse Tiltak:
    • Residual Standard Error: enkel regresjonsmodell har en mye høyere standard feil, noe som betyr at restene har en større varians. En 2,313 standard feil er ganske høy, tatt i betraktning den gjennomsnittlige omsetningen $70,870.
    • Flere / Justert R-Kvadrat: R-squared er svært høy i begge tilfeller. Justert R-kvadrat tar i betraktning antall variabler og så det er mer nyttig for multippel regresjonsanalyse.
    • F-Statistikk: F-test er statistisk signifikant., Dette betyr at begge modellene har minst én variabel som er betydelig annerledes enn null.

å Analysere Rester

Alle kan tilpasse en lineær modell i R. Den virkelige testen er å analysere rester (det feil eller forskjellen mellom faktiske og anslåtte resultater).

Det er fire ting vi leter etter ved å analysere rester.

  • gjennomsnittet av de feil som er null (og summen av de feil som er null)
  • fordelingen av de feil som er normalt.
  • Alle feil er uavhengige.,
  • Variansen av feil er konstant (Homoscedastic)

I R, kan du trekke ut restene ved å referere til modell og deretter resid variabel inne i modellen. Ved hjelp av enkel lineær regresjonsmodell (enkel.passer) vi vil plotte et par grafer for å illustrere noen problemer med modellen.

Restene er normalfordelt

histogram og QQ-plott er måter å visuelt vurdere om det gjenværende passer en normal fordeling.

  • Hvis histogrammet ser ut som en bell-kurve kan det være normalfordelt.,
  • Hvis QQ-plott har det store flertallet av poeng på eller svært nær linje, restene kan være normalfordelt.

tomter, ser ikke ut til å være svært nær en normal fordeling, men vi kan også bruke en statistisk test.

De Jarque-Bera-test (i fBasics bibliotek, som sjekker om frafallsskjevhet og kurtosis av restene er lik som en normal fordeling.

  • nullhypotesen av jarque-bera-test er at frafallsskjevhet og kurtosis av dine data er både lik null (samme som normal distribusjon).

Med en p-verdi på 0.,6195, vi klarer ikke å avvise nullhypotesen at frafallsskjevhet og kurtosis av restene er statistisk lik null.

Restene er uavhengige

Durbin-Watson test er brukt i gang-serien analyse for å teste om det er en trend i dataene basert på tidligere tilfeller – f.eks. en sesongens trend eller en trend alle andre data punktet.

ved Hjelp av lmtest bibliotek, vi kan kalle den «dwtest» – funksjonen på modellen for å sjekke om restene er uavhengige av hverandre.

  • nullhypotesen av Durbin-Watson-testen er at feilene er serielt Ukorrelerte.,

Basert på resultatene, kan vi forkaste nullhypotesen om at feil er serielt ukorrelerte. Dette betyr at vi har mer arbeid å gjøre.

La oss prøve å gå gjennom disse bevegelser for multippel regresjonsmodell.

Restene er normalfordelt

  • Histogram av rester ser ikke normalfordelt.
  • Men, QQ-Plottet viser bare en håndfull av poeng ut av normal linje.
  • Vi klarer ikke å avvise den Jarque-Bera nullhypotesen (p-verdi = 0.,5059)

Restene er uavhengige

  • Vi klarer ikke å avvise den Durbin-Watson testen er nullhypotesen (p-verdi 0.3133)

Restene har konstant varians

Konstant varians kan kontrolleres ved å se på «Studentized» rest – normalisert basert på standard avvik. «Studentizing» lar deg sammenligne rester på tvers av modellene.

Multi Passer Studentized Restene plottet viser at det ikke er noen åpenbare uteliggere. Hvis et punkt langt utover de andre punktene i plottet, da du kanskje ønsker å undersøke., Basert på tomten ovenfor, jeg synes vi er greit å anta konstant varians forutsetning. Mer data vil definitivt bidra til å fylle noen av hullene.

Oppsummering / Høydepunkter

  • Regresjon er et kraftig verktøy for å forutsi numeriske verdier.
  • R s lm-funksjonen skaper en regresjonsmodell.
  • Bruke oppsummering-funksjonen til å skrive en anmeldelse av vekter og arbeidsmål.
  • restene kan bli undersøkt ved å trekke på $res variabel fra din modell.
  • Du må sjekke din restene mot disse fire forutsetningene.,
    • gjennomsnittet av de feil som er null (og summen av de feil som er null).
    • fordelingen av de feil som er normalt.
    • Alle feil er uavhengige.
    • Variansen av feil er konstant (Homoscedastic)

Her er det full-koden nedenfor

Korrigeringer:

  • Takk til Thiam Huat for korreksjon på koeffisienten tolkning.

Written by 

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *