상관계수 (pearson correlation coefficient) : cor()
- 표준화된 공분산
- 공분산은 각 변량의 단위에 의존하게 되어 변동 크기량이 모호하므로, 공분산을 각 변량의 표준편차로 나누어 표준화
- 양의 값이면 두 변수가 같은 방향으로 움직임
- 0이면 선형관계가 없음
1) 표준화변수들의 공분산은 상관계수가 된다
2) 상관계수는 -1<= p <= 1의 범위를 가진다
3) 상관계수 p가 +1에 가까울수록 강한 양의 선형관계를 가진다
4) p=0이면 두 변수간의 선형관계가 없으며, 0에 가까울수록 선형관계가 약해진다
(단, 비선형 관계를 가질 수는 있음)
5) 위치 변환이나 척도 변환 후에도 상관계수는 변함이 없다
cor()
상관계수 확인 -> 0.8~9 등 높은 상관계수가 有 -> 다중공선성 문제 발생 가능! -> 주성분 만들어 해결 가능!
다중공선성?
Multicollinearity
독립변수간 상관관계가 강한 경우
출처: http://rfriend.tistory.com/126 [R, Python 분석과 프로그래밍 (by R Friend)]
'programing > R studio' 카테고리의 다른 글
prcomp() (0) | 2018.05.08 |
---|---|
lm()과 scale() (0) | 2018.05.08 |
attach()와 detach() (0) | 2018.05.08 |
주성분 분석 - PCA (0) | 2018.05.08 |
네트워크 분석 개요 (0) | 2018.05.08 |