lm() : linear model 단순 선형회귀, 설명변수가 여러개인 선형회귀, 회귀를 돌린다
lm(formula, data, ...)
lm(종속변수(결과) ~ 독립변수(원인),데이터)
formula : 반응 변수~설명 변수의 형태로 지정한 식
Call:
lm(formula = SENT_POS ~ CHAN_BLOG + CHAN_FORUM + CHAN_NEWS +
CHAN_TW + CHAN_INSTAGRAM + CHAN_TUMBLER, data = a)
Residuals:
Min 1Q Median 3Q Max
-2.4902 -0.0330 -0.0253 0.0016 3.2444
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.439e-16 5.415e-03 0.000 1.0000
a -8.215e-02 1.791e-02 -4.586 4.81e-06 ***
b 3.093e-01 2.107e-02 14.678 < 2e-16 ***
c -5.767e-02 2.615e-02 -2.205 0.0275 *
d 7.920e-01 2.623e-02 30.196 < 2e-16 ***
e 2.288e-01 1.305e-02 17.534 < 2e-16 ***
f -1.542e-01 1.632e-02 -9.452 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2407 on 1969 degrees of freedom
Multiple R-squared: 0.9422, Adjusted R-squared: 0.9421
F-statistic: 5352 on 6 and 1969 DF, p-value: < 2.2e-16
# *이 많을 수록 관련 있고
# Estimate의 절대값이 클수록 영향력이 큰 것이지만, 단순히 판단하기 어렵다. 왜냐하면 다른 변수가 영향력을 줄 수도 있기 때문!
# y=ax+b 이런 식에서 a값이라고 생각할 수 있음, 즉 배수!
# Signif. codes = 유의수준
# 0에서 유의하다, 0.001에서 유의하다 ...
# 0.001 수준에서 유의한 것이 가장 유의한 것!
# R-squared = 설명력
# 크다고 해서 설명력이 높은 것이 아니고, 참고지표 정도임, 여기에서는 약 94%의 설명력을 지님
# p-value
# 값이 매우 작기 때문에 회귀식이 유의하다고 판단할 수 있음
lm(TOTAL~., data) #여기에서 .은 전체를 뜻함
lm()전 scale()사용
scale()
데이터 정규화
변수 값으 분포를 표준화하는 것
출처 : http://chloe-ynlee.me/221302458526