1. R / R studio 다운
R : https://cran.r-project.org/bin/windows/base/
R studio : https://www.rstudio.com/products/rstudio/download/#download
2. getwd()
현재 작업 디렉토리 알려줌
3. setwd("작업 디렉토리 명")
현재 작업 디렉토리를 변경
4. global environment(전역변수)
R studio에서 쓰는 변수는 전역변수이다.
5. 자바처럼 int, String 등 따로 형 결정해주지 않아도, 입력하는 값에 따라 형이 결정된다.
6. c는 함수형
7. Ctrl + L = 페이지 깨끗하게 제일 위로 보내줌
원래 있던 데이터는 History에 나옴
<<<8. 연습하기>>>
1) 사용할 자료 작업 디렉토리에 복붙
파일명 : dbook.R
2) 사용할 자료 불러오기
> source("dbook.R")
> load.packages(c("stringr", "ggplot2", "dplyr", "knitr"))
3) 기본 제공되는 자료
> summary(mtcars)
4) 요약된 자료 나옴
> mtcars
5) 전체 자료가 나옴
> write.table(mtcars, "mtcars_new.txt")
txt파일로 작업디렉토리에 저장됨
=========================
ex) "문자는 이렇게 저장되고"
숫자는 한 칸씩 띄어서 저장된다.
ex) 1 2 3 4 5
=========================
6) 다시 읽어 드리기
> cars=read.table("mtcars_new.txt", header = T)
> cars
=========================
header = T
파일에서 첫번째줄을 변수명으로 저장
sep = ","
데이터가 ","로 구분되었음을 지정
=========================
7) 클립보드에 저장
ctrl+v하면 자료들이 붙여진다.
엑셀에 붙여넣기 해보면 알 수 있음.
> write.table(cars, "clipboard")
8) 데이터 상단 일부 보기
> head(cars)
데이터 앞부분 6개까지 보여줌
> head(cars, n=10)
데이터를 10개까지 보여줌
9) 데이터 하단 일부 보기
> tail(cars)
> tail(cars, n=15)
10) 맨 첫번째 칼럼(열) 보여줌
> rownames(cars)
11) 첫 번째 행의 이름들을 보여줌
> colnames(cars)
12) object명$항목명
> cars$mpg
mpg에 해당하는 값 전체를 보여줌
> cars$mpg[1]
첫번째 값 보여줌
> cars$mpg[1:5]
1~5번째 값 보여줌
13) 컬럼 생성하기
> cars$model = rownames(cars)
> cars
model이라는 컬럼 생성하면서,
cars의 names라는 이름의 컬럼 자료를 model 컬럼에 저장함
14) 컬럼 지우기
> rownames(cars) = NULL
> cars
NULL은 비어있는 상태(0의 개념이 아님)
NOT NULL은 반드시 값이 있어야 한다는 것
15) 스페이스 앞까지만 단어열 출력하기
> cars$maker = word(cars$model, 1)
maker(제조사) 컬럼 새로 만드는데,
model의 앞단어 1개까지만 저장함(스페이스 전까지).
ex) Mazda RX4이면 Mazda만 저장
16) dplyr 패키지의 기본 함수
함수명 내용 유사함수
filter() 지정한 조건식에 맞는 데이터 추출 subset()
select() 열의 추출 data[, c(“Year”, “Month”)]
mutate() 열 추가 transform()
arrange() 정렬 order(), sort()
summarise() 집계 aggregate()
17) 필터링 하여 원하는 컬럼만 보기
> cars.small.narrow =
+ cars %>%
+ filter(cyl == 4) %>%
+ select(maker, model, mpg, cyl)
> cars.small.narrow
cyl이 4인것만 select해서 maker, model, mpg, cyl 컬럼만 보여줌
18) group_by
> makers =
+ cars %>%
+ group_by(maker) %>%
+ summarise(maker.mpg = mean(mpg))
> head(makers)
# A tibble: 6 x 2
maker maker.mpg
<chr> <dbl>
1 AMC 15.2
2 Cadillac 10.4
3 Camaro 13.3
4 Chrysler 14.7
5 Datsun 22.8
6 Dodge 15.5
19) merge
> cars.maker = merge(cars, makers, by="maker")
20) 2차원 테이블
> table(cars$cyl)
> table(cars$gear, cars$cyl)
> cars$cyl
> cars$gear
> table(cars$gear)
<<<표 그리기>>>
1) hist
히스토그램 그리기(막대형 그래프)
> hist(cars$mpg)
=========================
zoom하면 크게 보기 가능
export하여 저장
=========================
2) plot
상관관계 분석
두 개의 값을 점으로 나타냄 (분산형 그래프)
엑셀에서는 scatter
> plot(cars$wt, cars$mpg)
3) qplot
> qplot(wt, mpg, data = cars,
+ shape = factor(cyl))
etc
NULL=값이 정의되지 않음
NA = (ex. 무응답)
무한대 infinite(불능)
>z<-10/0
>z
[1] inf
숫자가 아님(부정)
>w<-0/0
>w
[1] NaN
웹사이트의 데이터 파일 읽기
url<-"https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/datasets/Titanic.csv"
x<-read.csv(url)
x