1. R / R studio 다운

R : https://cran.r-project.org/bin/windows/base/

R studio : https://www.rstudio.com/products/rstudio/download/#download


2. getwd()

현재 작업 디렉토리 알려줌





3. setwd("작업 디렉토리 명")

현재 작업 디렉토리를 변경


4. global environment(전역변수)

R studio에서 쓰는 변수는 전역변수이다.





5. 자바처럼 int, String 등 따로 형 결정해주지 않아도, 입력하는 값에 따라 형이 결정된다.


6. c는 함수형


7. Ctrl + L = 페이지 깨끗하게 제일 위로 보내줌

원래 있던 데이터는 History에 나옴











<<<8. 연습하기>>>


1) 사용할 자료 작업 디렉토리에 복붙

파일명 : dbook.R




2) 사용할 자료 불러오기

> source("dbook.R")

> load.packages(c("stringr", "ggplot2", "dplyr", "knitr"))


3) 기본 제공되는 자료

> summary(mtcars)


4) 요약된 자료 나옴

> mtcars


5) 전체 자료가 나옴

> write.table(mtcars, "mtcars_new.txt")

txt파일로 작업디렉토리에 저장됨


=========================

ex) "문자는 이렇게 저장되고"


숫자는 한 칸씩 띄어서 저장된다.

ex) 1 2 3 4 5

=========================


6) 다시 읽어 드리기

> cars=read.table("mtcars_new.txt", header = T)

> cars


=========================

header = T

파일에서 첫번째줄을 변수명으로 저장


sep = ","

데이터가 ","로 구분되었음을 지정

=========================


7) 클립보드에 저장 

ctrl+v하면 자료들이 붙여진다.

엑셀에 붙여넣기 해보면 알 수 있음.

> write.table(cars, "clipboard")


8) 데이터 상단 일부 보기

> head(cars)

데이터 앞부분 6개까지 보여줌


> head(cars, n=10)

데이터를 10개까지 보여줌


9) 데이터 하단 일부 보기

> tail(cars)

> tail(cars, n=15)


10) 맨 첫번째 칼럼(열) 보여줌

> rownames(cars)


11) 첫 번째 행의 이름들을 보여줌

> colnames(cars)


12) object명$항목명

> cars$mpg

mpg에 해당하는 값 전체를 보여줌


> cars$mpg[1]

첫번째 값 보여줌


> cars$mpg[1:5]

1~5번째 값 보여줌


13)  컬럼 생성하기

> cars$model = rownames(cars)

> cars

model이라는 컬럼 생성하면서,

cars의 names라는 이름의 컬럼 자료를 model 컬럼에 저장함


14) 컬럼 지우기

> rownames(cars) = NULL

> cars

NULL은 비어있는 상태(0의 개념이 아님)

NOT NULL은 반드시 값이 있어야 한다는 것


15) 스페이스 앞까지만 단어열 출력하기

> cars$maker = word(cars$model, 1)


maker(제조사) 컬럼 새로 만드는데,

model의 앞단어 1개까지만 저장함(스페이스 전까지).

ex) Mazda RX4이면 Mazda만 저장


16) dplyr 패키지의 기본 함수

함수명 내용 유사함수

filter() 지정한 조건식에 맞는 데이터 추출                 subset()

select() 열의 추출 data[, c(“Year”, “Month”)]

mutate()          열 추가 transform()

arrange()     정렬 order(), sort()

summarise()     집계 aggregate()


17) 필터링 하여 원하는 컬럼만 보기

> cars.small.narrow = 

+ cars %>%

+ filter(cyl == 4) %>%

+ select(maker, model, mpg, cyl)

> cars.small.narrow

cyl이 4인것만 select해서 maker, model, mpg, cyl 컬럼만 보여줌


18) group_by

> makers = 

+ cars %>%

+ group_by(maker) %>%

+ summarise(maker.mpg = mean(mpg))

> head(makers)

# A tibble: 6 x 2

  maker    maker.mpg

  <chr>        <dbl>

1 AMC           15.2

2 Cadillac      10.4

3 Camaro        13.3

4 Chrysler      14.7

5 Datsun        22.8

6 Dodge         15.5


19) merge

> cars.maker = merge(cars, makers, by="maker")


20) 2차원 테이블

> table(cars$cyl)

> table(cars$gear, cars$cyl)


> cars$cyl

> cars$gear

> table(cars$gear)








<<<표 그리기>>>


1) hist

히스토그램 그리기(막대형 그래프)

> hist(cars$mpg)

=========================

zoom하면 크게 보기 가능

export하여 저장

=========================




2) plot

상관관계 분석

두 개의 값을 점으로 나타냄 (분산형 그래프)

엑셀에서는 scatter

> plot(cars$wt, cars$mpg)




3) qplot

> qplot(wt, mpg, data = cars,

+ shape = factor(cyl))







etc


NULL=값이 정의되지 않음



NA = (ex. 무응답)





무한대 infinite(불능)

>z<-10/0

>z

[1] inf



숫자가 아님(부정)

>w<-0/0

>w

[1] NaN





웹사이트의 데이터 파일 읽기

url<-"https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/datasets/Titanic.csv"

x<-read.csv(url)

x



+ Recent posts