paste() 공백 있이 문자열 붙이기

paste0() 공백 없이 문자열 붙이기

'programing > R studio' 카테고리의 다른 글

r 아르 - 역수 구하기  (0) 2018.05.21
아르 r - help, example, demo  (0) 2018.05.21
r 웹크롤링 - 베스트셀러 순위 보기  (0) 2018.05.17
tm 패키지  (0) 2018.05.17
stringr 패키지 - str_detect 함수  (0) 2018.05.17

> library(httr) # 페이지 가져오는데 필요한 패키지

> web<-GET("https://ridibooks.com/bestsellers/general?order=monthly")

>

> #XML 패키지의 htmlParse 함수로 해당 html 변환

> library(XML)

> web<-htmlParse(web)

>

> #xpathSApply(저장된 html 문서, 원하는 요소의 XPath, xmlValue)

> xpathSApply(web, '//*[@id="page_best"]/div[2]/div[2]/div[2]/h3/a/span', xmlValue)

[1] "        \n          \n            봉제인형 살인사건\n      "

>

> #\n 공백 제거

> x<-xpathSApply(web, '//*[@id="page_best"]/div[2]/div[2]/div[2]/h3/a/span', xmlValue)

> x<-gsub("\n", "", x) #\n 지우기

> x<-gsub("  ", "", x) #공백 지우기

> x

[1] "봉제인형 살인사건"

>

> #xpath 나누기

> xpath1 = '//*[@id="page_best"]/div[2]/div['

> xpath2 = ']/div[2]/h3/a/span'

>

> xpath = paste0(xpath1, i, xpath2) #paste0 공백없이 묶음

> xpath

[1] "//*[@id=\"page_best\"]/div[2]/div[10]/div[2]/h3/a/span"

>

> title = c()

>

> for(i in 1:10){

+   xpath = paste0(xpath1, i+1, xpath2) #바뀌는 숫자가 2부터 시작하므로

+   x = xpathSApply(web, xpath, xmlValue)

+   x = gsub("\n", "", x)

+   x = gsub("  ", "", x)

+   title[i] = x

+ }

>

> title

 [1] "봉제인형 살인사건"            

 [2] "우울할 뇌과학"             

 [3] "마당이 있는 "               

 [4] "로버트 그린 권력술 시리즈 세트"

 [5] "북유럽신화"                   

 [6] "82년생 김지영"                

 [7] "모든 순간이 너였다"           

 [8] "나미야 잡화점의 기적"         

 [9] "혼자 하는 공부의 정석"        

[10] "만만하게 보이지 않는 대화법"

 



출처 : http://lightblog.tistory.com/161


'programing > R studio' 카테고리의 다른 글

아르 r - help, example, demo  (0) 2018.05.21
r paste()와 paste0() 함수  (0) 2018.05.17
tm 패키지  (0) 2018.05.17
stringr 패키지 - str_detect 함수  (0) 2018.05.17
stopwords(불용어)  (0) 2018.05.17

tm 패키지

Text Mining, 텍스트 분석


Corpus 문서를 관리하는 기본 구조, 텍스트 문서들의 집합, 명사를 출일 수 있음


tm_map 함수 : 사용 빈번


Document-term metrix

문서번호와 단어간의 사용여부 or 빈도수를 만드는 작업

해당 문서의 해당용어 출현빈도를 카운팅해서 알려줌

'programing > R studio' 카테고리의 다른 글

r paste()와 paste0() 함수  (0) 2018.05.17
r 웹크롤링 - 베스트셀러 순위 보기  (0) 2018.05.17
stringr 패키지 - str_detect 함수  (0) 2018.05.17
stopwords(불용어)  (0) 2018.05.17
lapply와 do.call  (0) 2018.05.16

stringr 패키지 - str_detect 함수


> fruits <- c('apple', 'Apple', 'banana', 'pineapple')

> str_detect(fruits, "A")

[1] FALSE  TRUE FALSE FALSE

> str_detect(fruits, "^a") #a 시작하는 문자

[1]  TRUE FALSE FALSE FALSE

> str_detect(fruits, "e$") #e 끝나는 문자

[1]  TRUE  TRUE FALSE  TRUE

> str_detect(fruits, "^[aA]") #a OR A 시작하는 문자

[1]  TRUE  TRUE FALSE FALSE

> str_detect(fruits, "[aA]") #a OR A 들어가있는 문자

[1] TRUE TRUE TRUE TRUE



출처 : https://blog.naver.com/1stwook/220669068544

'programing > R studio' 카테고리의 다른 글

r 웹크롤링 - 베스트셀러 순위 보기  (0) 2018.05.17
tm 패키지  (0) 2018.05.17
stopwords(불용어)  (0) 2018.05.17
lapply와 do.call  (0) 2018.05.16
정규식 기호  (0) 2018.05.15

#stopwords(불용어)

#인터넷 검색 시 검색 용어로 사용하지 않는 단어

#검색 색인 단어로 의미가 없는 단어

#관사, 전치사, 조사, 접속사 등  

#ex) above, few, only, we, than, now, before ...

'programing > R studio' 카테고리의 다른 글

tm 패키지  (0) 2018.05.17
stringr 패키지 - str_detect 함수  (0) 2018.05.17
lapply와 do.call  (0) 2018.05.16
정규식 기호  (0) 2018.05.15
set.seed()  (0) 2018.05.15

lapply와 do.call

인수로 받은 함수를 반복 적용해줌


lapply

리턴을 list로 함


do.call 

인자를 list만 받음


예시

> x<-list(c(1,2,3),c(4,5,6))

> x

[[1]]

[1] 1 2 3

 

[[2]]

[1] 4 5 6

 

> lapply(x, rbind)

[[1]]

     [,1] [,2] [,3]

[1,]    1    2    3

 

[[2]]

     [,1] [,2] [,3]

[1,]    4    5    6

 

> do.call(rbind, x)

     [,1] [,2] [,3]

[1,]    1    2    3

[2,]    4    5    6

 

출처: https://blog.naver.com/ljh940102/220968374393

'programing > R studio' 카테고리의 다른 글

stringr 패키지 - str_detect 함수  (0) 2018.05.17
stopwords(불용어)  (0) 2018.05.17
정규식 기호  (0) 2018.05.15
set.seed()  (0) 2018.05.15
file.choose() - 파일을 선택하여 불러오기  (0) 2018.05.11




#[:digit:] 혹은 \d : 숫자, 0,1,2,3,4,5,6,7,8,9, 동등한 표현 [0-9].

#\D : 숫자가 아님, 동등한 표현 [^0-9].

#[:lower:] : 영문 소문자, 동등한 표현 [a-z].

#[:upper:] : 영문 대문자, 동등한 표현 [A-Z].

#[:alpha:] : 알파벳 대소문자, 동등한 표현 [[:lower:][:upper:]] 혹은 [A-z]

#[:alnum:] : 알파벳 숫자 문자, 동등한 표현 [[:alpha:][:digit:]] 혹은 [A-z0-9].

#\w : 단어 문자, 동등한 표현 [[:alnum:]] 혹은 [A-z0-9].

#\W : 단어가 아닌 것, 동등한 표현 [^A-z0-9].

#[:xdigit:] : 16진수 (밑이 16), 0 1 2 3 4 5 6 7 8 9 A B C D E F a b c d e f, 동등한 표현 [0-9A-Fa-f].

#[:blank:] : 간격 문자, 즉 스페이스와 탭.

#[:space:] : 공백 문자: 탭, 개행문자, 수직탭, 공백, 복귀문자, 서식이송(form feed)

#\s : 간격, ` `.

#\S : 간격 아님.

#[:punct:] : 구두점 문자, ! " # $ % & ’ ( ) * + , - . / : ; < = > ? @ [  ] ^ _ ` { | } ~.

#[:graph:] : 그래픽 (사람이 읽을 수 있는) 문자, 동등한 표현 [[:alnum:][:punct:]].

#[:print:] : 출력가능한 문자, 동등한 표현 [[:alnum:][:punct:]\\s].

#[:cntrl:] : \n, \r 같은 제어문자, 동등한 표현 [\x00-\x1F\x7F].



출처 : https://blog.naver.com/jyc8618/220196809317

'programing > R studio' 카테고리의 다른 글

stopwords(불용어)  (0) 2018.05.17
lapply와 do.call  (0) 2018.05.16
set.seed()  (0) 2018.05.15
file.choose() - 파일을 선택하여 불러오기  (0) 2018.05.11
놀이동산 관련 데이터 분석 - 미완성  (0) 2018.05.09

seed를 설정하는 이유는 시뮬레이션 결과는 시뮬레이션을 행하는 사람마다 다른 결과를 주기 때문에

동일한 seed를 설정하여 그 결과가 다른 사람들이 하더라도 동일한지 확인할 수 있기 때문에 설정한다.


'programing > R studio' 카테고리의 다른 글

lapply와 do.call  (0) 2018.05.16
정규식 기호  (0) 2018.05.15
file.choose() - 파일을 선택하여 불러오기  (0) 2018.05.11
놀이동산 관련 데이터 분석 - 미완성  (0) 2018.05.09
sprintf()  (0) 2018.05.09

file.choose()

파일을 선택하여 불러오기


ex

>read.csv(file.choose(), header=T)

'programing > R studio' 카테고리의 다른 글

정규식 기호  (0) 2018.05.15
set.seed()  (0) 2018.05.15
놀이동산 관련 데이터 분석 - 미완성  (0) 2018.05.09
sprintf()  (0) 2018.05.09
CA() - Correspondence Analysis  (0) 2018.05.08

df <- read.csv("http://goo.gl/HKnl74")

str(df)

colSums(is.na(df)) #col별로 결측값 개수 구하기


#놀이기구에 대한 만족도와 전체 만족도 간의 관계

#산점도 그리기

attach(df)

plot(overall~rides) #(y축~x축)

plot(overall, rides) #(x축, y축)


#cex=점 크기, pch=점 형태(1-빈원/2-세모/3-더하기/4-곱하기/5-마름모/6-역삼각형...)

#xlim=x축 값의 출력범위 지정, ylim=y축 값의 출력범위 지정, lty=출력되는 선의 형태 지정

plot(overall~rides, main="Overall~Rides", 

     xlab="Satisfaction with Rides", ylab="Overall Satisfaction", 

     cex=1, pch=6, col="blue")


#attach()와 detach()

detach(df)

df$weekend

attach(df)

weekend


#공분산 값 구하기

cov(overall, rides)


#상관계수 구하기 (두 변수 간 선형관계의 강도를 알 수 있음)

#use = 'complete.obs' : 결측값 제거된 상태에서 상관계수를 계산

#method = 'pearson' : 피어슨 상관계수 지정

cor(overall, rides, use = 'complete.obs', method = 'pearson')


#cor함수에 대해 더 알아보기

?cor


#상관계수 검정 

cor.test(overall, rides)


출처 ...

'programing > R studio' 카테고리의 다른 글

set.seed()  (0) 2018.05.15
file.choose() - 파일을 선택하여 불러오기  (0) 2018.05.11
sprintf()  (0) 2018.05.09
CA() - Correspondence Analysis  (0) 2018.05.08
fviz_ca()  (0) 2018.05.08

+ Recent posts