summary() : R내장 함수로, 전체적인 값에 대한 것

summarise(), group_by() : dplyr 패키지의 함수로, 원하는 값을 설정하여 얻을 수 있음

'programing > R studio' 카테고리의 다른 글

r 분석 블로그  (0) 2018.05.04
상관회귀분석과 결측값 처리  (0) 2018.05.04
factor()  (0) 2018.05.04
typeof(), class() - 데이터타입 확인  (0) 2018.05.04
ggplot2 - position  (0) 2018.05.04

 factor() : factor 생성 

- factor는 범주용 데이터를 표현하는 데이터 타입.

- 벡터에 추가 정보가 더해진 것으로 볼 수 있음.

- 이 추가정보는 벡터의 값 가운데 겹치지 않는 값의 기록으로 이뤄져 있고, 이를 레벨이라고 한다(중복 항목이 레벨인 것).

ex: 명목형(nominal) - 여/남, 순서형(ordinal)

  • ordered() 순서형 팩터 생성
  • nlevels() 팩터의 레벨 개수 
  • levels() 팩터의 목록
  • is.factor() : 팩터인지 판단
  • as.factor() : factor로 변환
  • as.character() : 문자 벡터로 변환
  • as.integer() : level의 위치를 숫자로 변환



https://blog.naver.com/ej_0109/221185776974

http://chloe-ynlee.me/221234315339

https://blog.naver.com/liberty264/221091048480

'programing > R studio' 카테고리의 다른 글

상관회귀분석과 결측값 처리  (0) 2018.05.04
summary()와 summarise(), group_by()  (0) 2018.05.04
typeof(), class() - 데이터타입 확인  (0) 2018.05.04
ggplot2 - position  (0) 2018.05.04
[미완성] 웹 크롤링  (0) 2018.05.03

#타입확인

>class(함수)

[1]"자료형 알려줌"


#동일

>typeof(함수) 

[1]"자료형 알려줌"


ex

>chr <- c("test", "a")

>class(chr)

[1] "character"

'programing > R studio' 카테고리의 다른 글

summary()와 summarise(), group_by()  (0) 2018.05.04
factor()  (0) 2018.05.04
ggplot2 - position  (0) 2018.05.04
[미완성] 웹 크롤링  (0) 2018.05.03
공부 참고 사이트  (0) 2018.05.02

#position=dodge, fill, identity, jitter, stack


  • dodge 값을 옆으로 겹치지 않게 하여 그래프 생성
  • fill 100% 기준 누적 막대 그래프
  • identity 그래프 겹쳐 그림
  • jitter 값들이 겹치지 않도록 값들을 약간 조금씩 움직임(연속형 데이터에 주로 사용)
  • stack 위로 누적하여 그래프 생성


https://blog.naver.com/definitice/221148700323

'programing > R studio' 카테고리의 다른 글

factor()  (0) 2018.05.04
typeof(), class() - 데이터타입 확인  (0) 2018.05.04
[미완성] 웹 크롤링  (0) 2018.05.03
공부 참고 사이트  (0) 2018.05.02
[R/R언어/R프로그래밍] igraph - 네트워크 분석  (0) 2018.05.02

귀무가설

현재상황 통념에 대한 이야기

통계분석에서 검증하는 가설

설정할 때부터 확률이 낮다고 가정한다 

채택한다는 개념이 아니라, 기각 여부를 결정하는 개념이다

- 기각한다 : 통계적으로 유의하다, 대립가설이 참이다!

- 기각하지 않는다 : 통계적으로 유의하지 않는다


대립가설

새로운 현상, 주장에 대한 이야기


p-value(유의확률)

귀무가설이 참임에도 이를 기각할 확률

ex) p-value가 0.02라면 귀무가설을 기각했을 때, 이 기각 결정이 잘못될 확률이 2%라는 것으로 과감히 기각해도 된다고 해석됨. 


p-value 값이 적을수록 표본분석 결과는 귀무가설과 상반되고, 연구자는 귀무가설이 기각되어 대립가설이 채택되길 원하기 때문에 보통 p-value가 낮을수록 통계적으로 유의미하다고 생각함



유의수준(α)

귀무가설의 기각 여부를 결정하는데 사용하는 기준이 되는 확률

제 1종 오류(귀무가설이 옮음에도 대립가설을 택하는 경우에 발생하는 오류)를 범할 확률의 허용 한계


p-value<=α

귀무가설 기각, 연구가설 지지

p-value>=α

귀무가설 기각하지 않음, 연구가설 지지하지 않음



귀무가설 기각

95% 신뢰구간 사용 할 경우, p-value가 0.05보다 낮으면 귀무가설 기각

즉, 1에서 신뢰수준을 뺀 값보다 p-value가 낮으면 귀무가설이 기각되는 것






출처 : https://blog.naver.com/moses3650/221217938069





2.2e-16은 2.2 * (10^-16) = 0.00000000000000022를 의미합니다. 보통 숫자가 길다면 컴퓨터 프로그램에서는 이런 식으로 표시를 많이 합니다.

xe+n = x*(10^n)으로 상당히 큰 숫자를 의미하고, 

ex) 2.2e-16

xe-n = x*(10^-n)로 상당히 작은 숫자(소수)를 의미합니다.

ex) 2.2e+16

예를 들어, 3e+4 = 3*(10^4) = 3*(10,000) = 30,000이 됩니다. 또, 1.5e-3 = 1.5*(10^-3) = 1.5*(0.001) = 0.0015가 됩니다.

따라서 귀무가설을 강력하게 기각할 수 있습니다.


출처 : https://kin.naver.com/qna/detail.nhn?d1id=11&dirId=1128&docId=303408838&qb=Mi4yZS0xNg==&enc=utf8&section=kin&rank=2&search_sort=0&spq=0&pid=Ty8wxspySENssagccNNssssst%2BK-438027&sid=F83mQSivOEYPAsvhxzRH3g%3D%3D

'programing' 카테고리의 다른 글

데이터 분석 준전문가 ADsP 시험 신청하는 곳  (0) 2018.06.18
csv 한글 깨짐 현상  (0) 2018.05.09
DOM node/hover  (0) 2018.04.04
WAS (Web Application Server)  (0) 2018.04.04
browser의 동작  (0) 2018.04.04

install.packages("RSelenium")

install.packages("rvest")

install.packages("httr")

install.packages("stringr")


library(RSelenium) #브라우저를 제어하기 위한 패키지

library(rvest) #HTML처리

library(httr) #HTML처리

library(stringr) #문자열 함수


ch=wdman::chrome(port=4567L) #크롬드라이버를 포트 4567번에 배정


remDr=remoteDriver(port=4567L, browserName='chrome') #remote설정

remDr$open() #크롬드라이버 실행


remDr$navigate("https://www.naver.com")



# 종료 시, 

remDr$close









#상품평 읽어오기

library(RSelenium)

remDr <- remoteDriver(remoteServerAddr = "localhost" ,

                      port = 4445L,   # port 번호 입력

                      browserName = "chrome")  

# browserName : 실행 브라우저 입력

remDr$open()

# 브라우저가 실행되면 성공

# 접속할 사이트 입력


remDr$navigate("https://search.shopping.naver.com/detail/detail.nhn?nv_mid=5365196529&cat_id=50000448&frm=NVSHATC&query=%EC%98%A4%ED%9C%98")     # google로 연결 됨


All_review=c() #텍스트를 모으기 위한 백터공간

for(i in 1:210) {  #페이지 수만큼 반복하여 review긁어오기

  a=i #페이지 번호

  first="shop.detail.ReviewHandler.page(" #i를 변수로 받기 위해서 문장을 분해 i자리 앞쪽

  secon=", ''); return false;" #i자리 뒤쪽

  script=paste(first,a,secon,sep='') # a는 자동적으로 i를 받아 변하고 paste를 통해 한문장이 됨.

  pagemove <- remDr$executeScript(script, args = 1:2) #args 요 부분 의미는 잘 모르겠음.

  source<-remDr$getPageSource()[[1]] #페이지 소스 가져오기

  main <- read_html(source)

  mainfo=html_nodes(main,css='.atc')

  review=mainfo%>%html_text() #텍스트만 가져오기

  All_review=c(All_review,review) #텍스트 저장

}

All_review





#네이버 로그인 하기

library(XML)

remDr <- remoteDriver(remoteServerAddr="localhost", 

                      port=4445L, 

                      browserName="chorme")

remDr$open()

remDr$navigate("http://nid.naver.com/nidlogin.login")

R studio 참고 블로그

https://blog.naver.com/nyaminyam/221244943431



네이버 상품평 크롤링하기

https://blog.naver.com/edgelab/221173114727



다양한 크롤링 소스

https://blog.naver.com/najam90/221176101881

install.packages("igraph")

library(igraph)


gd <- graph(c(1,2, 2,3, 2,4, 1,4, 5,5, 3,6, 5,6))

plot(gd)


gu <- graph(c(1,2, 2,3, 2,4, 1,4, 5,5, 3,6), directed=FALSE) #directed=FALSE 화살표 방향 없애기

plot(gu, vertex.label=NA) #vertex.label=NA 숫자없애기


install.packages("gcookbook")

library(gcookbook)


g <- graph.data.frame(madmen2)

par(mar=c(0,0,0,0)) #margin 여백 0으로 설정

plot(g, layout=layout.fruchterman.reingold, 

     vertex.size=10, edge.arrow.size=0.5, vertex.label=NA)


#원으로 그리기

g <- graph.data.frame(madmen, directed=FALSE)

par(mar=c(0,0,0,0))

plot(g, layout=layout.circle, vertex.size=8, vertex.label=NA)

 par() 그래프의 출력을 조정 – 그래프 화면의 분할, 마진, 글자 크기, 색상등 설정


ex) par(mar=c(0, 0, 0, 0))


• pty=“s” (x축과 y축을 동일비율로 설정, square) pty=“m" (최대크기로 설정, maximal)

• legend = c(“name1”, “name2”)

• bty="o" (box type 그래프의 상자모양을 설정) o, l, 7, c, u

• pch=1(default) point character (1=동그라미, 2=세모, …, 19=채운동그라미)

• lty=(solid가 default) (line type, 1=직선, 2=점선)

• lwd = 1, 2.. (선의 굵기)

• cex=1(default) (character expansion) 문자나 점의 크기, 숫자가 클수록 글자크기 커짐

• mar (아래, 왼쪽, 위쪽, 오른쪽)



출처: http://zbulletjournal.tistory.com/47 [Things are looking up]

grep()

데이터 中 컬럼네임에 '가'가 포함된 데이터의 행 번호를 추출


ex:

>grep("가", 데이터$컬럼네임)

[1] 1 3


>뉴데이터 <- 데이터[grep("가", 데이터$컬럼네임)]

    value1 value2

1   가나다   300

3   가수     500


  • ^가 : '가'로 시작하는
  • 가$ : '가'로 끝나는
  • 가 : '가'가 포함되는


+ Recent posts