
데이터를 일정한 규칙에 따라 변형하여 이용하기 쉽게 만드는 일

정규화는 이상 현상이 발생하지 않도록, 릴레이션을 관련이 있는 속성들로만 구성하기 위해 릴레이션을 분해(decomposition)하는 과정이다. 정규화를 통해 올바른 릴레이션의 설계를 완성할 수 있다.

출처 : 네이버 지식백과

파일을 선택하여 불러오기


>read.csv(file.choose(), header=T)

df <- read.csv("http://goo.gl/HKnl74")


colSums(is.na(df)) #col별로 결측값 개수 구하기

#놀이기구에 대한 만족도와 전체 만족도 간의 관계

#산점도 그리기


plot(overall~rides) #(y축~x축)

plot(overall, rides) #(x축, y축)

#cex=점 크기, pch=점 형태(1-빈원/2-세모/3-더하기/4-곱하기/5-마름모/6-역삼각형...)

#xlim=x축 값의 출력범위 지정, ylim=y축 값의 출력범위 지정, lty=출력되는 선의 형태 지정

plot(overall~rides, main="Overall~Rides", 

     xlab="Satisfaction with Rides", ylab="Overall Satisfaction", 

     cex=1, pch=6, col="blue")

#attach()와 detach()





#공분산 값 구하기

cov(overall, rides)

#상관계수 구하기 (두 변수 간 선형관계의 강도를 알 수 있음)

#use = 'complete.obs' : 결측값 제거된 상태에서 상관계수를 계산

#method = 'pearson' : 피어슨 상관계수 지정

cor(overall, rides, use = 'complete.obs', method = 'pearson')

#cor함수에 대해 더 알아보기


#상관계수 검정 

cor.test(overall, rides)

출처 ...

> sprintf("%d", 111) #정수 출력 [1] "111" > sprintf("%5d", 11) #다섯자리 고정 [1] " 11" > > sprintf("%f", 10.111) #실수 출력 [1] "10.111000" > sprintf("%.3f", 10.111234) #소수점 3자리수까지 [1] "10.111" > > > sprintf("%s", "hello") #문자열 출력 [1] "hello"

csv파일을 메모장으로 연 후

다른이름으로 저장할 때 인코딩을 ANSI로 설정한 후 .csv 확장명으로 저장

출처 : https://blog.naver.com/bonnyborn/221217991960

Retrospectiva 회고전(Retrospective)

incompatível 양립할 수 없는

distrair 산만하게 하다(distract)

lousa 칠판

grana(graninha) 돈

hino 찬송가

Correspondence Analysis

fviz_ca_biplot() - row&col


주요 변수 분석 그리기


repel - boolean, text labels의 overplotting을 피하기 위해 ggrepel을 사용할지 말지의 여부

col.var - 변수 색

%*% 매트릭스 곱


lm(), glm() 같은 명령문으로 얻어낸 회귀선으로 주어진 x 값에 해당하는 새로운 y 값을 predict하는 command

predict(model, newdata=A, interval=c("confidence", "prediction"), ...)

model - 예측에 사용할 회귀분석 결과식

newdata=A - 예측에 사용할 x값, 지정하지 않을 시 1~45 정수값에 대한 예측값 출력

interval - 지정된 x 값에 대한 y의 confidence interval or prediction interval을 출력

