> sprintf("%d", 111) #정수 출력 [1] "111" > sprintf("%5d", 11) #다섯자리 고정 [1] " 11" > > sprintf("%f", 10.111) #실수 출력 [1] "10.111000" > sprintf("%.3f", 10.111234) #소수점 3자리수까지 [1] "10.111" > > > sprintf("%s", "hello") #문자열 출력 [1] "hello"


'programing > R studio' 카테고리의 다른 글

file.choose() - 파일을 선택하여 불러오기  (0) 2018.05.11
놀이동산 관련 데이터 분석 - 미완성  (0) 2018.05.09
CA() - Correspondence Analysis  (0) 2018.05.08
fviz_ca()  (0) 2018.05.08
fviz_pca  (0) 2018.05.08

CA()

Correspondence Analysis

'programing > R studio' 카테고리의 다른 글

놀이동산 관련 데이터 분석 - 미완성  (0) 2018.05.09
sprintf()  (0) 2018.05.09
fviz_ca()  (0) 2018.05.08
fviz_pca  (0) 2018.05.08
predict()  (0) 2018.05.08

fviz_ca_row()

fviz_ca_col()

fviz_ca_biplot() - row&col

fviz_ca()

'programing > R studio' 카테고리의 다른 글

sprintf()  (0) 2018.05.09
CA() - Correspondence Analysis  (0) 2018.05.08
fviz_pca  (0) 2018.05.08
predict()  (0) 2018.05.08
주성분 분석  (0) 2018.05.08

fviz_pca

주요 변수 분석 그리기


옵션

repel - boolean, text labels의 overplotting을 피하기 위해 ggrepel을 사용할지 말지의 여부

col.var - 변수 색

'programing > R studio' 카테고리의 다른 글

CA() - Correspondence Analysis  (0) 2018.05.08
fviz_ca()  (0) 2018.05.08
predict()  (0) 2018.05.08
주성분 분석  (0) 2018.05.08
prcomp()  (0) 2018.05.08

%*% 매트릭스 곱


predict()

lm(), glm() 같은 명령문으로 얻어낸 회귀선으로 주어진 x 값에 해당하는 새로운 y 값을 predict하는 command


predict(model, newdata=A, interval=c("confidence", "prediction"), ...)

model - 예측에 사용할 회귀분석 결과식

newdata=A - 예측에 사용할 x값, 지정하지 않을 시 1~45 정수값에 대한 예측값 출력

interval - 지정된 x 값에 대한 y의 confidence interval or prediction interval을 출력

'programing > R studio' 카테고리의 다른 글

fviz_ca()  (0) 2018.05.08
fviz_pca  (0) 2018.05.08
주성분 분석  (0) 2018.05.08
prcomp()  (0) 2018.05.08
lm()과 scale()  (0) 2018.05.08

주성분 분석

많은 변수에 대해서 주성분이라는 새로운 변수를 생성하여 기존 변수들보다 차원을 요약하고 축소하는 기법

ex) X1, X2, ,,, X10

이 10개의 변수를 주성분 분석을 통해 P1, P2 차원으로 축소하는 것.


P1 - 데이터의 변동(분산)을 가장 많이 설명할 수 있는 것.

P2 - P1과 수직인 주성분


=> 다중공선성도 해결 가능



'programing > R studio' 카테고리의 다른 글

fviz_pca  (0) 2018.05.08
predict()  (0) 2018.05.08
prcomp()  (0) 2018.05.08
lm()과 scale()  (0) 2018.05.08
상관계수 - cor(), 다중공선성  (0) 2018.05.08

prcomp()

공분산 행렬의 고유값을 이용하지 않고, 원데이터에 대해 SVD(특이값 분해, Singular Value Decomposition)를 수행하여 계산하는 것.

자료의 특이치 분해.


prcomp(formula, data, subset, na.action, ...)

subset - 그룹자료

na.action - 결측치 처리


prcomp(x, retx=T, center=T, scale.=F, tol=NULL, ...)

x - 분석대상 자료

retx=T - 변수축 회전 여부

center=T - 원점 설정 여부, 중앙을 0으로

scale.=T - 표준화 여부, 조사값 단위가 다르면 표준화가 필요(분산을 1로)

'programing > R studio' 카테고리의 다른 글

predict()  (0) 2018.05.08
주성분 분석  (0) 2018.05.08
lm()과 scale()  (0) 2018.05.08
상관계수 - cor(), 다중공선성  (0) 2018.05.08
attach()와 detach()  (0) 2018.05.08

lm() : linear model 단순 선형회귀, 설명변수가 여러개인 선형회귀, 회귀를 돌린다 

lm(formula, data, ...)

lm(종속변수(결과) ~ 독립변수(원인),데이터)

formula : 반응 변수~설명 변수의 형태로 지정한 식


Call:

lm(formula = SENT_POS ~ CHAN_BLOG + CHAN_FORUM + CHAN_NEWS + 

    CHAN_TW + CHAN_INSTAGRAM + CHAN_TUMBLER, data = a)

Residuals:

    Min      1Q  Median      3Q     Max 

-2.4902 -0.0330 -0.0253  0.0016  3.2444 


Coefficients:

                 Estimate Std. Error t value Pr(>|t|)    

(Intercept)     3.439e-16  5.415e-03   0.000   1.0000    

a      -8.215e-02  1.791e-02  -4.586 4.81e-06 ***

b      3.093e-01  2.107e-02  14.678  < 2e-16 ***

c      -5.767e-02  2.615e-02  -2.205   0.0275 *  

d         7.920e-01  2.623e-02  30.196  < 2e-16 ***

e  2.288e-01  1.305e-02  17.534  < 2e-16 ***

f   -1.542e-01  1.632e-02  -9.452  < 2e-16 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 0.2407 on 1969 degrees of freedom

Multiple R-squared:  0.9422, Adjusted R-squared:  0.9421 

F-statistic:  5352 on 6 and 1969 DF,  p-value: < 2.2e-16


# *이 많을 수록 관련 있고

# Estimate의 절대값이 클수록 영향력이 큰 것이지만, 단순히 판단하기 어렵다. 왜냐하면 다른 변수가 영향력을 줄 수도 있기 때문!

# y=ax+b 이런 식에서 a값이라고 생각할 수 있음, 즉 배수!


Signif. codes = 유의수준

# 0에서 유의하다, 0.001에서 유의하다 ... 

# 0.001 수준에서 유의한 것이 가장 유의한 것!


# R-squared = 설명력

# 크다고 해서 설명력이 높은 것이 아니고, 참고지표 정도임, 여기에서는 약 94%의 설명력을 지님


# p-value

# 값이 매우 작기 때문에 회귀식이 유의하다고 판단할 수 있음


lm(TOTAL~., data) #여기에서 .은 전체를 뜻함


lm()전 scale()사용


scale() 

데이터 정규화

변수 값으 분포를 표준화하는 것




출처 : http://chloe-ynlee.me/221302458526

'programing > R studio' 카테고리의 다른 글

주성분 분석  (0) 2018.05.08
prcomp()  (0) 2018.05.08
상관계수 - cor(), 다중공선성  (0) 2018.05.08
attach()와 detach()  (0) 2018.05.08
주성분 분석 - PCA  (0) 2018.05.08

상관계수 (pearson correlation coefficient) : cor() 

- 표준화된 공분산

- 공분산은 각 변량의 단위에 의존하게 되어 변동 크기량이 모호하므로, 공분산을 각 변량의 표준편차로 나누어 표준화

- 양의 값이면 두 변수가 같은 방향으로 움직임

- 0이면 선형관계가 없음


1) 표준화변수들의 공분산은 상관계수가 된다

2) 상관계수는 -1<= p <= 1의 범위를 가진다

3) 상관계수 p가 +1에 가까울수록 강한 양의 선형관계를 가진다

4) p=0이면 두 변수간의 선형관계가 없으며, 0에 가까울수록 선형관계가 약해진다

(단, 비선형 관계를 가질 수는 있음)

5) 위치 변환이나 척도 변환 후에도 상관계수는 변함이 없다



cor()

상관계수 확인 -> 0.8~9 등 높은 상관계수가 有 -> 다중공선성 문제 발생 가능! -> 주성분 만들어 해결 가능!


다중공선성?

Multicollinearity

독립변수간 상관관계가 강한 경우



출처: http://rfriend.tistory.com/126 [R, Python 분석과 프로그래밍 (by R Friend)]

'programing > R studio' 카테고리의 다른 글

prcomp()  (0) 2018.05.08
lm()과 scale()  (0) 2018.05.08
attach()와 detach()  (0) 2018.05.08
주성분 분석 - PCA  (0) 2018.05.08
네트워크 분석 개요  (0) 2018.05.08

attach()

> df$rides

> attach(df)

> rides #attach함수를 사용하면 df$rides와 같아짐 


detach()

attach함수를 해제할 때 사용

'programing > R studio' 카테고리의 다른 글

lm()과 scale()  (0) 2018.05.08
상관계수 - cor(), 다중공선성  (0) 2018.05.08
주성분 분석 - PCA  (0) 2018.05.08
네트워크 분석 개요  (0) 2018.05.08
네트워크 분석 - igraph  (0) 2018.05.08

+ Recent posts