paste(letters[1:5], as.character(1:5))
[1] "a 1" "b 2" "c 3" "d 4" "e 5"
> paste(letters[1:5], as.character(1:3))
[1] "a 1" "b 2" "c 3" "d 1" "e 2"
> expand.grid(pants = c("blue", "black"), shirt = c("white", "grey", "plaid")) # 모든 조합 생성?
  pants shirt
1  blue white
2 black white
3  blue  grey
4 black  grey
5  blue plaid
6 black plaid



> install.packages("gtools")
> library(gtools)
> permutations(5,2)
      [,1] [,2]
 [1,]    1    2
 [2,]    1    3
 [3,]    1    4
 [4,]    1    5
 [5,]    2    1
 [6,]    2    3
 [7,]    2    4
 [8,]    2    5
 [9,]    3    1
[10,]    3    2
[11,]    3    4
[12,]    3    5
[13,]    4    1
[14,]    4    2
[15,]    4    3
[16,]    4    5
[17,]    5    1
[18,]    5    2
[19,]    5    3
[20,]    5    4
> combinations(5,2)
      [,1] [,2]
 [1,]    1    2
 [2,]    1    3
 [3,]    1    4
 [4,]    1    5
 [5,]    2    3
 [6,]    2    4
 [7,]    2    5
 [8,]    3    4
 [9,]    3    5
[10,]    4    5

> all_phone_numbers <- permutations(10, 7, v = 0:9)
> n <- nrow(all_phone_numbers)
> n
[1] 604800
> index <- sample(n, 5)
> index
[1] 124574 106782 415511 232305 465598
> all_phone_numbers[index,]
     [,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,]    2    0    6    4    1    8    5
[2,]    1    7    9    0    8    2    4
[3,]    6    8    7    4    3    2    5
[4,]    3    8    5    4    9    1    0
[5,]    7    6    2    1    9    8    3

> suits <- c("d", "c", "h", "s")
> numbers <- c("a", "j", "q", "k", as.character(1:10))
> deck <- expand.grid(number=numbers, suit=suits)
> deck<-paste(deck$number, deck$suit)
> deck
 [1] "a d"  "j d"  "q d"  "k d"  "1 d"  "2 d" 
 [7] "3 d"  "4 d"  "5 d"  "6 d"  "7 d"  "8 d" 
[13] "9 d"  "10 d" "a c"  "j c"  "q c"  "k c" 
[19] "1 c"  "2 c"  "3 c"  "4 c"  "5 c"  "6 c" 
[25] "7 c"  "8 c"  "9 c"  "10 c" "a h"  "j h" 
[31] "q h"  "k h"  "1 h"  "2 h"  "3 h"  "4 h" 
[37] "5 h"  "6 h"  "7 h"  "8 h"  "9 h"  "10 h"
[43] "a s"  "j s"  "q s"  "k s"  "1 s"  "2 s" 
[49] "3 s"  "4 s"  "5 s"  "6 s"  "7 s"  "8 s" 
[55] "9 s"  "10 s"
> kings<-paste("k", suits)
> kings
[1] "k d" "k c" "k h" "k s"
> mean(deck %in% kings)
[1] 0.07142857

> hands <- permutations(52, 2, v=deck) #deck 중에서 2개씩 뽑기
> nrows(hands)
[1] 2652
> first_card <- hands[,1] #first column
> second_card <- hands[,2]
> sum(first_card %in% kings)
[1] 204
> sum(first_card %in% kings & second_card%in% kings)/sum(first_card %in% kings)
[1] 0.05882353

> combinations(3,2)
     [,1] [,2]
[1,]    1    2
[2,]    1    3
[3,]    2    3





'programing > R studio' 카테고리의 다른 글

[Rstudio] rep, replicate, sample, table, prop.table  (0) 2021.06.28
R 패키지 설치 에러  (3) 2019.06.09
R 단축키  (0) 2019.03.23
시계열 ts()  (0) 2019.01.30
approx VS approxfun  (0) 2019.01.30

> beads<-rep(c("red","blue"), 3)
> beads
[1] "red"  "blue" "red"  "blue" "red"  "blue"


> beads<-rep(c("red","blue"), times=c(2,3))
> beads
[1] "red"  "red"  "blue" "blue" "blue"

> sample(beads, 1)
[1] "blue"

> A<-10000
> events<-replicate(A, sample(beads, 1))
> table(events)
events
blue  red 
5967 4033 
> prop.table(table(events))
events
  blue    red 
0.5967 0.4033 

> events<-replicate(100000, sample(beads, 1))
> prop.table(table(events))
events
   blue     red 
0.59903 0.40097 

> events<-replicate(100, sample(beads, 1))
> prop.table(table(events))
events
blue  red 
0.55 0.45 

> events<-sample(beads, A, replace = TRUE)
> prop.table(table(events))
events
  blue    red 
0.5999 0.4001 

'programing > R studio' 카테고리의 다른 글

[Rstudio]  (0) 2021.06.28
R 패키지 설치 에러  (3) 2019.06.09
R 단축키  (0) 2019.03.23
시계열 ts()  (0) 2019.01.30
approx VS approxfun  (0) 2019.01.30

파이썬 설치 파일 클릭 - modify 클릭 - Add Python to environment variables 클릭 -> 자동으로 path 설정됨!

'programing' 카테고리의 다른 글

데이터 분석 준전문가 ADsP 시험 신청하는 곳  (0) 2018.06.18
csv 한글 깨짐 현상  (0) 2018.05.09
[통계] 귀무가설, 대립가설, p-value  (0) 2018.05.03
DOM node/hover  (0) 2018.04.04
WAS (Web Application Server)  (0) 2018.04.04

https://stackoverflow.com/questions/40060353/not-able-to-install-packages-in-pycharm

 

Not able to install packages in Pycharm

I have pycharm community edition(latest stable build) installed on my Ubuntu 16.04 LTS, I am not able to install packages via pycharm, was able to install them before. I can install the packages v...

stackoverflow.com

 

 

17

I have got a solution, i reffered to https://youtrack.jetbrains.com/issue/PY-20081#u=1468410176856.

Here they have tried to add https://pypi.python.org/pypi as a repository.

To add it as a repository,

1.) Go to Settings 2.) Project interpreter 3.) Click the + sign on top right edge 4.) Go to manage repositories, 5.) Press the + Sign, then add https://pypi.python.org/pypi 6.) Press Ok

Now all the packages should load.

Thanks Hami Torun & Simon, I was able to solve it by luck.

 

 

repository에 저 링크 입력해주면 됨!

 

pip버전 문제인줄 알았는데.. 

근데 저 링크는 뭐지

'programing > Python' 카테고리의 다른 글

윈도우 pandas 설치법  (0) 2018.06.18
Python 기초 - type()  (0) 2018.04.09
Python 기초 - input()  (0) 2018.04.09
Python 기초 - print()  (0) 2018.04.09
Python 기초 - 리스트  (0) 2018.04.09

cannot create dir 'C:/어쩌구/저쩌구' , reason 'Invalid argument'

 

R studio를 관리자권한으로 다시 열면 됩니다.

'programing > R studio' 카테고리의 다른 글

[Rstudio]  (0) 2021.06.28
[Rstudio] rep, replicate, sample, table, prop.table  (0) 2021.06.28
R 단축키  (0) 2019.03.23
시계열 ts()  (0) 2019.01.30
approx VS approxfun  (0) 2019.01.30

%>% : Ctrl+Shift+M

#(주석) : Ctrl+Shift+C


'programing > R studio' 카테고리의 다른 글

[Rstudio] rep, replicate, sample, table, prop.table  (0) 2021.06.28
R 패키지 설치 에러  (3) 2019.06.09
시계열 ts()  (0) 2019.01.30
approx VS approxfun  (0) 2019.01.30
특정 행 or 열 이름만 바꾸기  (0) 2018.12.03

3-1

1. 표본평균 Sample mean

- 표본비율 Sample proportion

i번째 관측값이 어떤 범주에 속하면 1, 속하지 않으면 0으로 표시(무슨 뜻이지?)

- 이상점 Outlier

이상점에 robust하지 않다 (= 이상점 때문에 평균으로는 데이터를 설명하기 힘들다)

2. 가중평균 Weighted mean

가중치를 두어서 평균을 계산

3. 기하평균 Geometric mean

4. 조화평균 Harmonic mean


3-2 

1. 표본중앙값(표본중위수) Sample median

- 중간값

- 극단적인 값에 영향을 받지 않음

- 이상점에 robust하다

- 자료의 정보를 다 사용하지 못함

- 평균값과 중앙값이 비슷하다면 평균을 사용하기

- x(i) i번째로 작은 값

순서통계량: 표본을 오름차순으로 정렬한 것

x(1), x(2), ..., x(i)


2. 표본절사평균 Sample trimmed mean

α% 표본절사평균: 순서통계량에서 하위 α%부터 상위 α%까지의 자료를 사용하여 표본평균 계산

(이상점을 잘라내기 위해 앞뒤로 α%를 잘라내고 평균내는 것)

- α백분위수 percentile: 하위 α%에 해당하는 값

- p=α/100이면 p분위수 quantile

- α=0; 표본평균

- α=50; 표본중앙값


3. 표본최빈값 Sample mode

- 자료 중 빈도가 가장 많은 값

- 여러개 일수도 있음

- 연속형 자료의 경우 없을수도 있음


3-3

1. 산포 Dispersion


2. 범위 Range

자료 중 Max-min


3. 사분위(간)범위 Interquartile-Range

- 사분위수 quaritle: 25, 50, 75% 지점

- 제2사분위수(Q2)는 표본중앙값

- IQR = Q3-Q1


3-4

1. 표본분산 Sample variance

n-1: 자유도 degree of freedom

마지막 데이터 하나는 정보가 아니라, 합을 0으로 만들어주기 위한 것이라서


2. 표본표준편차 Sample standard deviation


3. 표준화 Standardization

평균=0, 표준편차1 -> 측정 단위에 영향을 받지 않아 절대비교 가능


4. 변동계수 Coefficient of variation

표준편차가 평균에 영향을 받는 경우

ex) 다이어트 목표 체중에서 100kg인 사람이 10kg, 50kg인 사람이 10kg 감량할 때, 각 10%, 20% 감량하게 되는 것

표준편차만 이용하여 산포를 비교하는 건 적절하지 않을 수 있어서 평균으로 표준편차 보정


3-5

1. 왜도 skewness

- 자료가 대칭인지, 한쪽으로 기울어져 있는지에 대한 측도

- 두터운 꼬리 heavy tail: 꼬리가 길게 분포한 것

- 양의왜도 positive skeweness/skewed to the right: 큰 양수값을 가짐

- 음의 왜도 negative skewness, skewed to the left

- 정규분포의 경우 왜도는 0


2. 첨도 kurtosis

- 양쪽 꼬리가 얼마나 두터운지를 나타내는 측도

- 뾰족한 정도

- 정규분포의 경우 청도는 3


-> 심한 왜도 or 큰 첨도를 가질 경우, 이상점이 있을 가능성이 높아짐



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info

'분석 > 통계분석' 카테고리의 다른 글

2. 자료의 분류  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

2-1

자료의 분류

1. 범주형 자료 Categorial data

(1) 명목자료 Nominal data

숫자로 바꾸어도 그 값이 크고 작음이 아니라, 단순히 범주를 표시

(2) 순서자료 Ordinal data

- 범주의 순서가 상대 비교 가능

- 범주화를 통해 수치자료를 순서자료로 바꾼 것

ex) 학점 (A~F), 선호도(매우 좋음~매우 나쁨)


2. 수치자료 Numerical data

(1) 이산자료 Discrete data

셀 수 있는 형태의 자료 countable data

(2) 연속자료 Continuous data

연속적인 속성을 갖는 자료

ex) 신장, 체중, 시간

164.57cm / 51.13kg 이런식으로 연속적임


2-3

도수분포표 Frequency table



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info

'분석 > 통계분석' 카테고리의 다른 글

3. 평균/산포  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

1-1

통계학이란?

- 관심/연구 대상인 모집단의 특성을 파악하기 위해 자료를 수집하고, 

- 그 자료를 정리/요약/분석하여 표본의 특성을 파악한 후,

- 표본의 특성을 이용해 모집단의 특성에 대해 추론하는 것

===> 모집단에서 설문조사/실험/관찰을 통해서 표본을 추출하고, 표본에 대해 통계적 추론으로 표본의 특성으로 그 모집단을 추론하는 것


1-2

1. 확률표본추출 probability sampling

(1) 단순확률추출 SRS, Simple Random Sampling

모집단N에서 표본n을 무작위 추출

(2) 계통추출 Systematic Sampling

- 1~k번째 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 추출

- 선거출구조사 등에 사용

(3) 집락추출 Cluster Sampling

- 서로 인접한 조사단위들을 묶어 집락을 추출하고, 집락 내의 조사단위들을 조사

ex 서울시 고등학교 월평균 사교육비 조사해야할 시, 1단계) 고등학교를 추출하고, 2단계) 학생을 추출한다.

(개인적으로, 집락추출은 크기의 구분이 아닌, 직접 분류화가 필요할 때 사용하는 것인듯?)

(4) 층화추출 Stratified Random Sampling

- 층을 나눈 후, SRS 시행

ex 서울 서점 월매출액 추정해야할 시, 서점을 소/중/대형으로 분류한 후 표본을 추출한다


2. 비확률표본추출 non-probability sampling

- 특정 표본이 선정될 확률을 알 수 없음

- 추론결과의 정확도가 낮음

ex

(1) 편의추출: 자발적 참여, 백화점 앞/포털사이트 인터넷 조사

(2) 유의추출: 전문가 선택

(3) 할당추출: 랜덤화 과정 없이 구성비에 의해 조사대사 선택 


- 목표모집단

- 조사모집단(실제로 조사가능한 범위의 모집단)


1-3

1. 가중치 weight



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/pdfbook/0/

'분석 > 통계분석' 카테고리의 다른 글

3. 평균/산포  (0) 2019.02.10
2. 자료의 분류  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

look in/into 

들여다 보다, 조사하다


look at

살피다, 감토하다

고려하다

생각하다


look out

감상하다

조심하다, 경계하다

예측하다


look on

구경하다


look to something

생각해보다


look after

주의하다

보살피다

배웅하다(=see off / ex. I saw my friend off to the station.)

'me myself and i > english' 카테고리의 다른 글

[영어]  (0) 2018.12.23
[영어]  (0) 2018.09.16
face the music  (0) 2018.09.01
[영어] 가깝다는 표현  (0) 2018.08.02
smoking gun  (0) 2018.07.24

+ Recent posts