lm() : linear model 단순 선형회귀, 설명변수가 여러개인 선형회귀, 회귀를 돌린다 

lm(formula, data, ...)

lm(종속변수(결과) ~ 독립변수(원인),데이터)

formula : 반응 변수~설명 변수의 형태로 지정한 식


Call:

lm(formula = SENT_POS ~ CHAN_BLOG + CHAN_FORUM + CHAN_NEWS + 

    CHAN_TW + CHAN_INSTAGRAM + CHAN_TUMBLER, data = a)

Residuals:

    Min      1Q  Median      3Q     Max 

-2.4902 -0.0330 -0.0253  0.0016  3.2444 


Coefficients:

                 Estimate Std. Error t value Pr(>|t|)    

(Intercept)     3.439e-16  5.415e-03   0.000   1.0000    

a      -8.215e-02  1.791e-02  -4.586 4.81e-06 ***

b      3.093e-01  2.107e-02  14.678  < 2e-16 ***

c      -5.767e-02  2.615e-02  -2.205   0.0275 *  

d         7.920e-01  2.623e-02  30.196  < 2e-16 ***

e  2.288e-01  1.305e-02  17.534  < 2e-16 ***

f   -1.542e-01  1.632e-02  -9.452  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.2407 on 1969 degrees of freedom

Multiple R-squared:  0.9422, Adjusted R-squared:  0.9421 

F-statistic:  5352 on 6 and 1969 DF,  p-value: < 2.2e-16


# *이 많을 수록 관련 있고

# Estimate의 절대값이 클수록 영향력이 큰 것이지만, 단순히 판단하기 어렵다. 왜냐하면 다른 변수가 영향력을 줄 수도 있기 때문!

# y=ax+b 이런 식에서 a값이라고 생각할 수 있음, 즉 배수!


Signif. codes = 유의수준

# 0에서 유의하다, 0.001에서 유의하다 ... 

# 0.001 수준에서 유의한 것이 가장 유의한 것!


# R-squared = 설명력

# 크다고 해서 설명력이 높은 것이 아니고, 참고지표 정도임, 여기에서는 약 94%의 설명력을 지님


# p-value

# 값이 매우 작기 때문에 회귀식이 유의하다고 판단할 수 있음


lm(TOTAL~., data) #여기에서 .은 전체를 뜻함


lm()전 scale()사용


scale() 

데이터 정규화

변수 값으 분포를 표준화하는 것




출처 : http://chloe-ynlee.me/221302458526

'programing > R studio' 카테고리의 다른 글

주성분 분석  (0) 2018.05.08
prcomp()  (0) 2018.05.08
상관계수 - cor(), 다중공선성  (0) 2018.05.08
attach()와 detach()  (0) 2018.05.08
주성분 분석 - PCA  (0) 2018.05.08

+ Recent posts