Sammanfattning: R linjär regression använder lm() funktionen för att skapa en regression har gett någon formel, i form av Y~X+X2. För att titta på modellen använder du funktionen sammanfattning (). För att analysera residualerna drar du ut $ resid-variabeln från din nya modell. Residuals är skillnaderna mellan förutsägelsen och de faktiska resultaten och du måste analysera dessa skillnader för att hitta sätt att förbättra din regressionsmodell.,

för att göra linjär (enkel och multipel) regression i R behöver du den inbyggda lm-funktionen.

här är de data vi kommer att använda, ett år av marknadsföring spendera och företagets försäljning per månad.,

10 12000 131348 11 7000 78504 12 3000 36284

förutsatt att du har laddat ner CSV läser vi data in till r och kallar den datauppsättningsvariabeln

enkel (en variabel) och flera linjära regressioner med lm ()

prediktorn (eller oberoende) variabeln för vår linjära regression kommer att spendera (märka de aktiverade s) och den beroende variabeln (den vi försöker förutsäga) kommer att vara försäljning (igen, kapital s).,

lm-funktionen behöver bara en formel (Y~X) och sedan en datakälla. Vi använder Sales~Spend, data=dataset och vi kallar den resulterande linjära modellen ”fit”.

simple.fit = lm(Sales~Spend, data=dataset)summary(simple.fit)multi.fit = lm(Sales~Spend+Month, data=dataset)summary(multi.fit)

meddelanden på multi.anpassa linje Utgiftsvariablerna åtföljs av Månadsvariabeln och ett plustecken (+). Plustecknet inkluderar Månadsvariabeln i modellen som en prediktor (oberoende) variabel.

sammanfattningsfunktionen matar ut resultaten från den linjära regressionsmodellen.,

utdata för R: s lm-funktion som visar den använda formeln, sammanfattningsstatistiken för residualerna, koefficienterna (eller vikterna) för prediktorvariabeln, och slutligen prestandamätten inklusive RMSE, R-squared och F-statistiken.

båda modellerna har signifikanta modeller (se f-statistik för Regression) och de flera R-kvadrerade och justerade R-kvadraten är båda exceptionellt höga (kom ihåg, det här är ett förenklat exempel)., Vi ser också att alla variabler är signifikanta (som indikeras av ”**”)

tolkning av R: s Regressionsutgång

  • residualer: avsnittet sammanfattar residualerna, felet mellan modellens förutsägelse och de faktiska resultaten. Mindre residualer är bättre.
  • koefficienter: för varje variabel och intercept produceras en vikt och att vikten har andra attribut som standardfelet, ett t-testvärde och betydelse.
    • uppskattning: detta är den vikt som ges till variabeln., I det enkla regressionsfallet (en variabel plus avlyssningen) förutspår modellen en ökning på $10.6222 för varje dollarökning i utgifterna.
    • Std. Fel: berättar hur exakt uppskattningen mättes. Det är verkligen bara användbart för att beräkna t-värdet.
    • t-värde och Pr (>): t-värdet beräknas genom att koefficienten dividerad med Std. Fel. Det används sedan för att testa om koefficienten är signifikant annorlunda än noll., Om det inte är signifikant, lägger koefficienten verkligen inte något till modellen och kan släppas eller undersökas ytterligare. Pr (>|t|) är signifikansnivån.

  • prestandamått: tre uppsättningar mätningar tillhandahålls.
    • Reststandardfel: detta är standardavvikelsen för residualerna. Mindre är bättre.
    • Multiple / Adjusted R-Square: för en variabel spelar skillnaden egentligen ingen roll. R-squared visar mängden varians som förklaras av modellen., Justerad R-kvadrat tar hänsyn till antalet variabler och är mest användbar för multipel regression.
    • f-statistik: f-testet kontrollerar om minst en variabels vikt är väsentligt annorlunda än noll. Detta är ett globalt test för att hjälpa åsnor en modell. Om p-värdet inte är signifikant (t.ex. större än 0,05) än din modell gör i huvudsak ingenting.

behöver du mer konkreta förklaringar? Jag förklarar sammanfattningsutmatning på den här sidan.

med beskrivningarna ur vägen, låt oss börja tolka.,

Residuals: vi kan se att flera regressionsmodellen har ett mindre intervall för residuals: -3385 till 3034 vs. -1793 till 1911. För det andra är medianen för multipel regression mycket närmare 0 än den enkla regressionsmodellen.

  • koefficienter:
    • (Intercept): intercept är vänster över när du genomsnitt oberoende och beroende variabel. I den enkla regressionen ser vi att avlyssningen är mycket större vilket betyder att det finns en hel del kvar., Flera regression visar en negativ intercept men det är närmare noll än den enkla regressionsutgången.
    • spendera: både enkel och flera regression visar att för varje dollar du spenderar, bör du förvänta dig att få runt 10 dollar i försäljningen.
    • månad: när vi lägger till månadsvariabeln multiplicerar den denna variabel gånger månadens numeriska (ordinära) värde. Så för varje månad du är på året lägger du till ytterligare 541 i försäljningen. Så februari lägger i $ 1,082 medan December lägger $ 6,492 i försäljning.,
  • prestandamått:
    • Reststandardfel: den enkla regressionsmodellen har ett mycket högre standardfel, vilket betyder att residualerna har en större varians. Ett 2,313 standardfel är ganska högt med tanke på den genomsnittliga försäljningen är $ 70,870.
    • Multiple / Adjusted R-Square: R-squared är mycket hög i båda fallen. Den justerade R-torget tar in för att ta hänsyn till antalet variabler och så är det mer användbart för multipel regressionsanalys.
    • f-statistik: f-testet är statistiskt signifikant., Det innebär att båda modellerna har minst en variabel som är signifikant annorlunda än noll.

analysera residualer

vem som helst kan passa en linjär modell i R. det verkliga testet analyserar residualerna (felet eller skillnaden mellan faktiska och förutspådda resultat).

det finns fyra saker vi letar efter när vi analyserar residualer.

  • medelvärdet av felen är noll (och summan av felen är noll)
  • fördelningen av felen är normala.
  • alla fel är oberoende.,
  • felvariansen är konstant (Homoscedastisk)

i R drar du ut residualerna genom att referera till modellen och sedan resid-variabeln inuti modellen. Med den enkla linjära regressionsmodellen (enkel.fit) vi plottar några grafer för att illustrera eventuella problem med modellen.

residualer distribueras normalt

histogrammet och QQ-plottet är sätten att visuellt utvärdera om resterande passar en normal fördelning.

  • om histogrammet ser ut som en klockkurva kan det normalt distribueras.,
  • Om QQ-plottet har de allra flesta punkter på eller mycket nära linjen, kan residualerna normalt distribueras.

tomterna verkar inte vara mycket nära en normal fördelning, men vi kan också använda ett statistiskt test.

Jarque-Bera-testet (i fbasics-biblioteket, som kontrollerar om skevheten och kurtosen hos dina residualer liknar den för en normal fördelning.

  • nollhypotesen för jarque-bera-testet är att skevhet och kurtosis av dina data är båda lika med noll (samma som den normala fördelningen).

med ett p-värde på 0.,6195, vi misslyckas med att avvisa nollhypotesen att skevheten och kurtosen av residualer är statistiskt lika med noll.

residualer är oberoende

Durbin-Watson-testet används i tidsserieanalys för att testa om det finns en trend i data baserat på tidigare instanser – t.ex. en säsongsmässig trend eller en trend varannan datapunkt.

med hjälp av lmtest-biblioteket kan vi ringa ”dwtest” – funktionen på modellen för att kontrollera om residualerna är oberoende av varandra.

  • nollhypotesen för Durbin-Watson-testet är att felen är seriellt okorrelerade.,

baserat på resultaten kan vi avvisa nollhypotesen att felen är seriellt okorrelerade. Det betyder att vi har mer att göra.

låt oss försöka gå igenom dessa rörelser för multipel regressionsmodell.

residualer distribueras normalt

  • Histogram av residualer ser inte normalt ut.
  • QQ-plottet visar dock bara en handfull punkter från den normala linjen.
  • vi misslyckas med att avvisa Jarque-Bera null-hypotesen (p-value = 0.,5059)

residualer är oberoende

  • vi misslyckas med att avvisa Durbin-Watsons nollhypotes (p-värde 0.3133)

residualer har konstant varians

konstant varians kan kontrolleras genom att titta på ”Studentized” residuals – normalized baserat på standardavvikelsen. ”Studentizing” låter dig jämföra residualer mellan modeller.

Multi Passar Studentized Restprodukter handlingen visar att det inte finns några uppenbara extremvärden. Om en punkt är långt bortom de andra punkterna i tomten, kanske du vill undersöka., Baserat på tomten ovan, Jag tror att vi är okej att anta den ständiga varians antagande. Mer data skulle definitivt bidra till att fylla i några av luckorna.

Recap/Highlights

  • Regression är ett kraftfullt verktyg för att förutsäga numeriska värden.
  • R: S lm-funktion skapar en regressionsmodell.
  • använd sammanfattningsfunktionen för att granska vikter och prestandamått.
  • residualerna kan undersökas genom att dra på $resid-variabeln från din modell.
  • Du måste kontrollera dina residualer mot dessa fyra antaganden.,
    • medelvärdet av felen är noll (och summan av felen är noll).
    • fördelningen av felen är normala.
    • alla fel är oberoende.
    • variansen av fel är konstant (Homoscedastic)

här är den fullständiga koden nedan

korrigeringar:

  • tack vare Thiam Huat för korrigering på koefficienttolkning.

Written by 

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *