> matrix(c(1:9), nrow=3)

     [,1] [,2] [,3]

[1,]    1    4    7

[2,]    2    5    8

[3,]    3    6    9

#변수가 생성되지 않고, 이름만 가짐(결측치 or 정의되지 않은 값)

> x <- NULL

> is.null(x)

[1] TRUE


#NA 결측치 (ex 설문지 무응답) - Not available


#무한대(불능)

> x <- 10/0

> x

[1] Inf


#숫자가 아님(부정) - Not a Number

> x <- 0/0

> x

[1] NaN

#x 벡터 원소 값들의 합

> x<-seq(1:10)

> sum(x)

[1] 55



#평균

> mean(x)

[1] 5.5



#분산

> var(x)

[1] 9.166667




#표준편차

> sd(x)

[1] 3.02765




#제곱근

> sqrt(x)

 [1] 1.000000 1.414214 1.732051 2.000000 2.236068 2.449490 2.645751 2.828427 3.000000 3.162278




#원소의 개수

> length(x)

[1] 10




#절대값

> x<-c(1,2,-3)

> abs(x)

[1] 1 2 3



#1~30

> x<-seq(1:30)

> x

 [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30



#1~40

> x<-1:40

> x

 [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

[34] 34 35 36 37 38 39 40



#1~100안에서 13씩 증가

> x<-seq(1,100,by=13)

> x

[1]  1 14 27 40 53 66 79 92



#1~100을 일정한 간격으로 하는 6개의 숫자

> x<-seq(1,100,length.out=6)

> x

[1]   1.0  20.8  40.6  60.4  80.2 100.0



#벡터를 2번씩 반복

> x<-c(1,2,3)

> rep(x, times=2)

[1] 1 2 3 1 2 3



> rep(1:5, times=3)

 [1] 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5




#백터의 각 원소를 2번 반복

> rep(x, each=2)

[1] 1 1 2 2 3 3



> x <- FALSE


> isTRUE(x)

[1] FALSE


#0은 FALSE, 0이 아니라면 TRUE

벡터: c() 원소가 하나 이상인 순서화된 동일한 데이터 유형의 값


배열: 동일한 데이터 유형을 갖는 1차원 이상의 데이터 구조

*2차원 배열은 행렬


리스트: 각 원소들이 이름을 가지거나 서로 다른 데이터 유형으로 구성 가능


데이터 프레임: 2차원 테이블 형태로, 각 열은 동일한 데이터 유형을 가짐

#na.rm=T는 결측을 통계량 계산 시, 포함하지 않도록 하는 것

#is.na() 결측값 포함되어 있는지 확인

#sum(is.na()) 결측값이 총 몇개인지 확인

colSums(is.na()) #col별로 결측값 개수 구하기

rowSums(is.na()) #row별로 결측값 개수 구하기

#na.omit() 결측값 있는 행 전체 제거

#complete.cases() 특정 행과 열에 결측값이 들어있는 행을 데이터셋에서 제거




출처 : http://rfriend.tistory.com/34

rbind(A, B) 행 결합

cbind(A, B) 열 결합

merge(A, B by='key') 동일 key값 기준 결합

lm()함수

lm(종속변수(결과) ~ 독립변수(원인),데이터)

cor.test() - 상관관계의 유무 판단 

- 단위는 모상관계수 ρ를 사용한다. ρ값이 유의하다면 두 변인 간 상관관계가 있다 (ex. p > 0.05 면 상관관계가 있다)

* 연관관계만 나타낼 뿐 인과관계가 있는지는 알 수 없다.(인과관계는 회귀분석을 통해 알아볼 수 있


cor() - 상관관계의 정도 판단

- 두 변수간 상관관계의 정도는 상관계수 r값의 절대값으로 판단한다.


- 절대값 r이 0이면 관계없음. 1이면 완전한 관계

1.0 ~ 0.7: 강

0.7 ~ 0.3: 중

0.3 ~ 0.1: 약

0.1 ~ 0.0: 무시


[출처] cor() 함수 활용한 상관관계분석|작성자 im7may

+ Recent posts