'programing' 카테고리의 글 목록 (9 Page)

programing

summary()와 summarise(), group_by() 2018.05.04
factor() 2018.05.04
typeof(), class() - 데이터타입 확인 2018.05.04
ggplot2 - position 2018.05.04
[통계] 귀무가설, 대립가설, p-value 2018.05.03
[미완성] 웹 크롤링 2018.05.03
공부 참고 사이트 2018.05.02
[R/R언어/R프로그래밍] igraph - 네트워크 분석 2018.05.02
[R/R언어/R프로그래밍] par() 그래프의 출력을 조정 2018.05.02
[R/R언어/R프로그래밍] grep() 2018.04.29

summary()와 summarise(), group_by()

2018. 5. 4. 07:20

summary() : R내장 함수로, 전체적인 값에 대한 것

summarise(), group_by() : dplyr 패키지의 함수로, 원하는 값을 설정하여 얻을 수 있음

'programing > R studio' 카테고리의 다른 글

r 분석 블로그 (0)	2018.05.04
상관회귀분석과 결측값 처리 (0)	2018.05.04
factor() (0)	2018.05.04
typeof(), class() - 데이터타입 확인 (0)	2018.05.04
ggplot2 - position (0)	2018.05.04

factor()

2018. 5. 4. 07:18

factor() : factor 생성

- factor는 범주용 데이터를 표현하는 데이터 타입.

- 벡터에 추가 정보가 더해진 것으로 볼 수 있음.

- 이 추가정보는 벡터의 값 가운데 겹치지 않는 값의 기록으로 이뤄져 있고, 이를 레벨이라고 한다(중복 항목이 레벨인 것).

ex: 명목형(nominal) - 여/남, 순서형(ordinal)

ordered() 순서형 팩터 생성
nlevels() 팩터의 레벨 개수
levels() 팩터의 목록
is.factor() : 팩터인지 판단
as.factor() : factor로 변환
as.character() : 문자 벡터로 변환
as.integer() : level의 위치를 숫자로 변환

https://blog.naver.com/ej_0109/221185776974

http://chloe-ynlee.me/221234315339

https://blog.naver.com/liberty264/221091048480

'programing > R studio' 카테고리의 다른 글

상관회귀분석과 결측값 처리 (0)	2018.05.04
summary()와 summarise(), group_by() (0)	2018.05.04
typeof(), class() - 데이터타입 확인 (0)	2018.05.04
ggplot2 - position (0)	2018.05.04
[미완성] 웹 크롤링 (0)	2018.05.03

typeof(), class() - 데이터타입 확인

2018. 5. 4. 07:16

#타입확인

>class(함수)

[1]"자료형 알려줌"

#동일

>typeof(함수)

[1]"자료형 알려줌"

>chr <- c("test", "a")

>class(chr)

[1] "character"

'programing > R studio' 카테고리의 다른 글

summary()와 summarise(), group_by() (0)	2018.05.04
factor() (0)	2018.05.04
ggplot2 - position (0)	2018.05.04
[미완성] 웹 크롤링 (0)	2018.05.03
공부 참고 사이트 (0)	2018.05.02

ggplot2 - position

2018. 5. 4. 07:16

#position=dodge, fill, identity, jitter, stack

dodge 값을 옆으로 겹치지 않게 하여 그래프 생성
fill 100% 기준 누적 막대 그래프
identity 그래프 겹쳐 그림
jitter 값들이 겹치지 않도록 값들을 약간 조금씩 움직임(연속형 데이터에 주로 사용)
stack 위로 누적하여 그래프 생성

https://blog.naver.com/definitice/221148700323

'programing > R studio' 카테고리의 다른 글

factor() (0)	2018.05.04
typeof(), class() - 데이터타입 확인 (0)	2018.05.04
[미완성] 웹 크롤링 (0)	2018.05.03
공부 참고 사이트 (0)	2018.05.02
[R/R언어/R프로그래밍] igraph - 네트워크 분석 (0)	2018.05.02

[통계] 귀무가설, 대립가설, p-value

2018. 5. 3. 14:31

귀무가설

현재상황 통념에 대한 이야기

통계분석에서 검증하는 가설

설정할 때부터 확률이 낮다고 가정한다

채택한다는 개념이 아니라, 기각 여부를 결정하는 개념이다

- 기각한다 : 통계적으로 유의하다, 대립가설이 참이다!

- 기각하지 않는다 : 통계적으로 유의하지 않는다

대립가설

새로운 현상, 주장에 대한 이야기

p-value(유의확률)

귀무가설이 참임에도 이를 기각할 확률

ex) p-value가 0.02라면 귀무가설을 기각했을 때, 이 기각 결정이 잘못될 확률이 2%라는 것으로 과감히 기각해도 된다고 해석됨.

p-value 값이 적을수록 표본분석 결과는 귀무가설과 상반되고, 연구자는 귀무가설이 기각되어 대립가설이 채택되길 원하기 때문에 보통 p-value가 낮을수록 통계적으로 유의미하다고 생각함

유의수준(α)

귀무가설의 기각 여부를 결정하는데 사용하는 기준이 되는 확률

제 1종 오류(귀무가설이 옮음에도 대립가설을 택하는 경우에 발생하는 오류)를 범할 확률의 허용 한계

p-value<=α

귀무가설 기각, 연구가설 지지

p-value>=α

귀무가설 기각하지 않음, 연구가설 지지하지 않음

귀무가설 기각

95% 신뢰구간 사용 할 경우, p-value가 0.05보다 낮으면 귀무가설 기각

즉, 1에서 신뢰수준을 뺀 값보다 p-value가 낮으면 귀무가설이 기각되는 것

출처 : https://blog.naver.com/moses3650/221217938069

2.2e-16은 2.2 * (10^-16) = 0.00000000000000022를 의미합니다. 보통 숫자가 길다면 컴퓨터 프로그램에서는 이런 식으로 표시를 많이 합니다.

xe+n = x*(10^n)으로 상당히 큰 숫자를 의미하고,

ex) 2.2e-16

xe-n = x*(10^-n)로 상당히 작은 숫자(소수)를 의미합니다.

ex) 2.2e+16

예를 들어, 3e+4 = 3*(10^4) = 3*(10,000) = 30,000이 됩니다. 또, 1.5e-3 = 1.5*(10^-3) = 1.5*(0.001) = 0.0015가 됩니다.

따라서 귀무가설을 강력하게 기각할 수 있습니다.

출처 : https://kin.naver.com/qna/detail.nhn?d1id=11&dirId=1128&docId=303408838&qb=Mi4yZS0xNg==&enc=utf8&section=kin&rank=2&search_sort=0&spq=0&pid=Ty8wxspySENssagccNNssssst%2BK-438027&sid=F83mQSivOEYPAsvhxzRH3g%3D%3D

'programing' 카테고리의 다른 글

데이터 분석 준전문가 ADsP 시험 신청하는 곳 (0)	2018.06.18
csv 한글 깨짐 현상 (0)	2018.05.09
DOM node/hover (0)	2018.04.04
WAS (Web Application Server) (0)	2018.04.04
browser의 동작 (0)	2018.04.04

[미완성] 웹 크롤링

2018. 5. 3. 11:03

install.packages("RSelenium")

install.packages("rvest")

install.packages("httr")

install.packages("stringr")

library(RSelenium) #브라우저를 제어하기 위한 패키지

library(rvest) #HTML처리

library(httr) #HTML처리

library(stringr) #문자열 함수

ch=wdman::chrome(port=4567L) #크롬드라이버를 포트 4567번에 배정

remDr=remoteDriver(port=4567L, browserName='chrome') #remote설정

remDr$open() #크롬드라이버 실행

remDr$navigate("https://www.naver.com")

# 종료 시,

remDr$close

#상품평 읽어오기

library(RSelenium)

remDr <- remoteDriver(remoteServerAddr = "localhost" ,

port = 4445L, # port 번호 입력

browserName = "chrome")

# browserName : 실행 브라우저 입력

remDr$open()

# 브라우저가 실행되면 성공

# 접속할 사이트 입력

remDr$navigate("https://search.shopping.naver.com/detail/detail.nhn?nv_mid=5365196529&cat_id=50000448&frm=NVSHATC&query=%EC%98%A4%ED%9C%98") # google로 연결 됨

All_review=c() #텍스트를 모으기 위한 백터공간

for(i in 1:210) { #페이지 수만큼 반복하여 review긁어오기

a=i #페이지 번호

first="shop.detail.ReviewHandler.page(" #i를 변수로 받기 위해서 문장을 분해 i자리 앞쪽

secon=", ''); return false;" #i자리 뒤쪽

script=paste(first,a,secon,sep='') # a는 자동적으로 i를 받아 변하고 paste를 통해 한문장이 됨.

pagemove <- remDr$executeScript(script, args = 1:2) #args 요 부분 의미는 잘 모르겠음.

source<-remDr$getPageSource()[[1]] #페이지 소스 가져오기

main <- read_html(source)

mainfo=html_nodes(main,css='.atc')

review=mainfo%>%html_text() #텍스트만 가져오기

All_review=c(All_review,review) #텍스트 저장

}

All_review

#네이버 로그인 하기

library(XML)

remDr <- remoteDriver(remoteServerAddr="localhost",

port=4445L,

browserName="chorme")

remDr$open()

remDr$navigate("http://nid.naver.com/nidlogin.login")

'programing > R studio' 카테고리의 다른 글

typeof(), class() - 데이터타입 확인 (0)	2018.05.04
ggplot2 - position (0)	2018.05.04
공부 참고 사이트 (0)	2018.05.02
[R/R언어/R프로그래밍] igraph - 네트워크 분석 (0)	2018.05.02
[R/R언어/R프로그래밍] par() 그래프의 출력을 조정 (0)	2018.05.02

공부 참고 사이트

2018. 5. 2. 17:43

R studio 참고 블로그

https://blog.naver.com/nyaminyam/221244943431

네이버 상품평 크롤링하기

https://blog.naver.com/edgelab/221173114727

다양한 크롤링 소스

https://blog.naver.com/najam90/221176101881

'programing > R studio' 카테고리의 다른 글

ggplot2 - position (0)	2018.05.04
[미완성] 웹 크롤링 (0)	2018.05.03
[R/R언어/R프로그래밍] igraph - 네트워크 분석 (0)	2018.05.02
[R/R언어/R프로그래밍] par() 그래프의 출력을 조정 (0)	2018.05.02
[R/R언어/R프로그래밍] grep() (0)	2018.04.29

[R/R언어/R프로그래밍] igraph - 네트워크 분석

2018. 5. 2. 16:07

install.packages("igraph")

library(igraph)

gd <- graph(c(1,2, 2,3, 2,4, 1,4, 5,5, 3,6, 5,6))

plot(gd)

gu <- graph(c(1,2, 2,3, 2,4, 1,4, 5,5, 3,6), directed=FALSE) #directed=FALSE 화살표 방향 없애기

plot(gu, vertex.label=NA) #vertex.label=NA 숫자없애기

install.packages("gcookbook")

library(gcookbook)

g <- graph.data.frame(madmen2)

par(mar=c(0,0,0,0)) #margin 여백 0으로 설정

plot(g, layout=layout.fruchterman.reingold,

vertex.size=10, edge.arrow.size=0.5, vertex.label=NA)

#원으로 그리기

g <- graph.data.frame(madmen, directed=FALSE)

par(mar=c(0,0,0,0))

plot(g, layout=layout.circle, vertex.size=8, vertex.label=NA)

'programing > R studio' 카테고리의 다른 글

[미완성] 웹 크롤링 (0)	2018.05.03
공부 참고 사이트 (0)	2018.05.02
[R/R언어/R프로그래밍] par() 그래프의 출력을 조정 (0)	2018.05.02
[R/R언어/R프로그래밍] grep() (0)	2018.04.29
[R/R언어/R프로그래밍] 함수 만들기 - function() (0)	2018.04.25

[R/R언어/R프로그래밍] par() 그래프의 출력을 조정

2018. 5. 2. 16:00

par() 그래프의 출력을 조정 – 그래프 화면의 분할, 마진, 글자 크기, 색상등 설정

ex) par(mar=c(0, 0, 0, 0))

• pty=“s” (x축과 y축을 동일비율로 설정, square) pty=“m" (최대크기로 설정, maximal)

• legend = c(“name1”, “name2”)

• bty="o" (box type 그래프의 상자모양을 설정) o, l, 7, c, u

• pch=1(default) point character (1=동그라미, 2=세모, …, 19=채운동그라미)

• lty=(solid가 default) (line type, 1=직선, 2=점선)

• lwd = 1, 2.. (선의 굵기)

• cex=1(default) (character expansion) 문자나 점의 크기, 숫자가 클수록 글자크기 커짐

• mar (아래, 왼쪽, 위쪽, 오른쪽)

출처: http://zbulletjournal.tistory.com/47 [Things are looking up]

'programing > R studio' 카테고리의 다른 글

공부 참고 사이트 (0)	2018.05.02
[R/R언어/R프로그래밍] igraph - 네트워크 분석 (0)	2018.05.02
[R/R언어/R프로그래밍] grep() (0)	2018.04.29
[R/R언어/R프로그래밍] 함수 만들기 - function() (0)	2018.04.25
[R/R언어/R프로그래밍] 행과 열의 추가/삭제 (0)	2018.04.25

[R/R언어/R프로그래밍] grep()

2018. 4. 29. 15:22

grep()

데이터 中 컬럼네임에 '가'가 포함된 데이터의 행 번호를 추출

ex:

>grep("가", 데이터$컬럼네임)

[1] 1 3

>뉴데이터 <- 데이터[grep("가", 데이터$컬럼네임)]

value1 value2

1 가나다 300

3 가수 500

^가 : '가'로 시작하는
가$ : '가'로 끝나는
가 : '가'가 포함되는

'programing > R studio' 카테고리의 다른 글

[R/R언어/R프로그래밍] igraph - 네트워크 분석 (0)	2018.05.02
[R/R언어/R프로그래밍] par() 그래프의 출력을 조정 (0)	2018.05.02
[R/R언어/R프로그래밍] 함수 만들기 - function() (0)	2018.04.25
[R/R언어/R프로그래밍] 행과 열의 추가/삭제 (0)	2018.04.25
[R/R언어/R프로그래밍] 리스트 원소 출력 (0)	2018.04.25

PREV 1 ···6 7 8 9 10 11 12 ···22 NEXT

h-elena

programing

summary()와 summarise(), group_by()

'programing > R studio' 카테고리의 다른 글

factor()

'programing > R studio' 카테고리의 다른 글

typeof(), class() - 데이터타입 확인

'programing > R studio' 카테고리의 다른 글

ggplot2 - position

'programing > R studio' 카테고리의 다른 글

[통계] 귀무가설, 대립가설, p-value

'programing' 카테고리의 다른 글

[미완성] 웹 크롤링

'programing > R studio' 카테고리의 다른 글

공부 참고 사이트

'programing > R studio' 카테고리의 다른 글

[R/R언어/R프로그래밍] igraph - 네트워크 분석

'programing > R studio' 카테고리의 다른 글

[R/R언어/R프로그래밍] par() 그래프의 출력을 조정

'programing > R studio' 카테고리의 다른 글

[R/R언어/R프로그래밍] grep()

'programing > R studio' 카테고리의 다른 글

+ Recent posts

티스토리툴바