facet_wrap()


~오른쪽 기재되는 변수별 level 순서대로 sub 그래프를 그려준다


nrow, ncol 옵션으로 그래프가 그려지는 행과 열의 수 지정 가능


ex)

facet_wrap(~BRAND, nrow=2)

'programing > R studio' 카테고리의 다른 글

네트워크 분석 개요  (0) 2018.05.08
네트워크 분석 - igraph  (0) 2018.05.08
reshape2 - melt()  (0) 2018.05.07
%in% 과 match(), slice()  (0) 2018.05.07
ggplot2 - geom_line, color, fill  (0) 2018.05.07

reshape2 패키지


melt()


데이터 모양 변환, 데이터 요약에 사용

가로데이터를 세로데이터로 만든다고 생각해도 됨

식별자(id), 측정대상 변수, 측정치를 받아 데이터 요약


데이터 스프레드 시트를 조정할 수 있는 함수
다량의 columns을 한 컬럼 안에 쌓아 주는 함수


melt(data, ..., na.rm=FALSE, value.name="value")


ex)

melt(데이터, id.vars=c("컬럼명"))

'programing > R studio' 카테고리의 다른 글

네트워크 분석 - igraph  (0) 2018.05.08
facet_wrap()  (0) 2018.05.07
%in% 과 match(), slice()  (0) 2018.05.07
ggplot2 - geom_line, color, fill  (0) 2018.05.07
group_by() %>% summarise()  (0) 2018.05.07

> v <- c("a", "b", "c", "d")


> "b" %in% v

[1] TRUE


> v %in% "b"

[1] FALSE TRUE FALSE FALSE


> match("b", v) #몇 번째에 있는지

[1] 2


slice() : 행을 position에 따라 필터링 하는 것

slice(match())

'programing > R studio' 카테고리의 다른 글

facet_wrap()  (0) 2018.05.07
reshape2 - melt()  (0) 2018.05.07
ggplot2 - geom_line, color, fill  (0) 2018.05.07
group_by() %>% summarise()  (0) 2018.05.07
ave() - 아직 정확히 모르겠음  (0) 2018.05.04

ggplot2 패키지


geom_line(linetype="blank/solid/dashed/dotted/dotdash/longdash/twodash", size=1)


color, fill 함수

1. 그래프 기반으로 geom 함수에 적용하여 색상 나타내기

2. 데이터를 기반으로 aes함수에 적용하여 색상 나타내기

'programing > R studio' 카테고리의 다른 글

reshape2 - melt()  (0) 2018.05.07
%in% 과 match(), slice()  (0) 2018.05.07
group_by() %>% summarise()  (0) 2018.05.07
ave() - 아직 정확히 모르겠음  (0) 2018.05.04
%in% 와 match(), merge()  (0) 2018.05.04

어떤 변수(열) 전체의 평균, 표준편차, 사분위수 등 기초통계량 구할 때 : summary()


집단별로 나누어 구할 때 : group_by() %>% summarise()

- group_by() : 변수 지정하여 항목별 데이터 분리

- summarise() : 집단별 요약 통계량 산출


'programing > R studio' 카테고리의 다른 글

%in% 과 match(), slice()  (0) 2018.05.07
ggplot2 - geom_line, color, fill  (0) 2018.05.07
ave() - 아직 정확히 모르겠음  (0) 2018.05.04
%in% 와 match(), merge()  (0) 2018.05.04
dplyr 패키지  (0) 2018.05.04

ave()

Group Averages Over Level Combinations Of Factors

펙터의 레벨 조합에 대한 그룹 평균


x[]의 부분집합의 평균으로, 각 부분집합은 같은 펙터 레벨을 지닌다


사용

ave(x, …, FUN = mean)


Arguments

x : 숫자

… : 그룹변수, 일반 펙터, x와 같은 길이의 모든 것


..모르겠담..

'programing > R studio' 카테고리의 다른 글

ggplot2 - geom_line, color, fill  (0) 2018.05.07
group_by() %>% summarise()  (0) 2018.05.07
%in% 와 match(), merge()  (0) 2018.05.04
dplyr 패키지  (0) 2018.05.04
r 분석 블로그  (0) 2018.05.04

%in% 와 match(), merge()


# %in% -> 리턴값이 TRUE면 v안에 "b"가 들어있는 것


>v <- c("a", "b", "c", "d")

>"b"%in%v

[1] TRUE


> match("b", v)

[1] 2


match() : 특정한 값을 찾고 싶을 때 (내부)

merge() : 특정한 값을 찾고 싶을 때 (외부)


ex)

merge(data1, data2, by="DATE") # DATE를 기준으로 두 데이터 합병

'programing > R studio' 카테고리의 다른 글

group_by() %>% summarise()  (0) 2018.05.07
ave() - 아직 정확히 모르겠음  (0) 2018.05.04
dplyr 패키지  (0) 2018.05.04
r 분석 블로그  (0) 2018.05.04
상관회귀분석과 결측값 처리  (0) 2018.05.04

dplyr 패키지

  • filter(data, condition1, con2) : 데이터 프래임의 행 선별 by 조건
  • slice(data, from, to) : 데이터 프레임의 행 선별 by positon
  • distinct(data, co1, co2) : 중복없는 행 추출
  • select(data, var1, var20 : 컬럼 선택 by name
  • strts_with
  • ends_with
  • contain
  • matches
  • one_of
  • rename(data, new_var1=var1, new_var2=var2) : 데이터 프레임의 변수 이름 변경
  • arrange(col1, col2) : 데이터 프레임 정렬
  • sample_n(data, N) / sample_frac(data, 비율) : 샘플 n 행 from 테이블
  • replace=TRUE : 복원 추출
  • group_by(factor_col)%>%sample_n(N) : 집단별 층화 표본 추출
  • mutate(data, new_col=function) : 새로운 열 추가(기존 + 새로운 변수)
  • transmute(data, new_col=function) : 새로운 열 추가(새로운 변수)
  • summarise(data, function) : multiple values to a single value.
  • chain operation (%>%) : 단계절차일 때 중간결과에 대해 저장


https://blog.naver.com/liberty264/221001364360



'programing > R studio' 카테고리의 다른 글

ave() - 아직 정확히 모르겠음  (0) 2018.05.04
%in% 와 match(), merge()  (0) 2018.05.04
r 분석 블로그  (0) 2018.05.04
상관회귀분석과 결측값 처리  (0) 2018.05.04
summary()와 summarise(), group_by()  (0) 2018.05.04

http://blog.daum.net/revisioncrm/341

'programing > R studio' 카테고리의 다른 글

%in% 와 match(), merge()  (0) 2018.05.04
dplyr 패키지  (0) 2018.05.04
상관회귀분석과 결측값 처리  (0) 2018.05.04
summary()와 summarise(), group_by()  (0) 2018.05.04
factor()  (0) 2018.05.04

상관*회귀분석 (Correlation&Regression)

둘 또는 그 이상의 변수들이 서로 관련성을 가지고 변화할 때, 그 관례를 분석할 때 사용하는 방법


1. 상관관계

변수간 선형적 관계


2. 상관분석

상관관계에 대한 분석


3. 결측값 개수 구하기

is.na(데이터) : 개별적으로 출력, TRUE가 나오면 결측값인 것

sum(is.na(데이터)) : NA개수를 출력

colSums(is.na(데이터)) : 열

rowSums(is.na(데이터)) : 행


4. 결측값 제거

결측값(NA)를 반드시 처리해주어야 함

na.omit(데이터)


5. 산정도(Scatter plot)

변수 간 직선적인 관계를 대략적으로 파악이 가능함


#산정도 나타내기

plot(y축~x축)

plot(x축, y축)


6. 공분산

산정도는 대략적으로만 파악이 가능하므로, 변수 간 관계를 정확히 숫자로 나타내기 위해 사용한다.

2개의 확률변수의 상관정도를 나타낸다.


두 변수가 ↑↑관계면 양수 

두 변수가 ↑관계면 음수 


cov(값1, 값2) : 공분산을 나타내주는 함수


7. 상관계수

공분산을 표준화시킨 것으로 -1에서 1 사이의 값을 가짐


0 : 두 변수 간 선형관계가 전혀 없음

0.3~0.7 : 뚜렷한 양적 선형관계

0.7~1.0 : 강한 양적 선형관계


* 특이 값에 민감히 반응하므로 데이터 값에 주의해야 함

** 관련성을 의미할 뿐, 원인과 결과의 방향을 알려주지는 못 함

'programing > R studio' 카테고리의 다른 글

dplyr 패키지  (0) 2018.05.04
r 분석 블로그  (0) 2018.05.04
summary()와 summarise(), group_by()  (0) 2018.05.04
factor()  (0) 2018.05.04
typeof(), class() - 데이터타입 확인  (0) 2018.05.04

+ Recent posts