3-1

1. 표본평균 Sample mean

- 표본비율 Sample proportion

i번째 관측값이 어떤 범주에 속하면 1, 속하지 않으면 0으로 표시(무슨 뜻이지?)

- 이상점 Outlier

이상점에 robust하지 않다 (= 이상점 때문에 평균으로는 데이터를 설명하기 힘들다)

2. 가중평균 Weighted mean

가중치를 두어서 평균을 계산

3. 기하평균 Geometric mean

4. 조화평균 Harmonic mean


3-2 

1. 표본중앙값(표본중위수) Sample median

- 중간값

- 극단적인 값에 영향을 받지 않음

- 이상점에 robust하다

- 자료의 정보를 다 사용하지 못함

- 평균값과 중앙값이 비슷하다면 평균을 사용하기

- x(i) i번째로 작은 값

순서통계량: 표본을 오름차순으로 정렬한 것

x(1), x(2), ..., x(i)


2. 표본절사평균 Sample trimmed mean

α% 표본절사평균: 순서통계량에서 하위 α%부터 상위 α%까지의 자료를 사용하여 표본평균 계산

(이상점을 잘라내기 위해 앞뒤로 α%를 잘라내고 평균내는 것)

- α백분위수 percentile: 하위 α%에 해당하는 값

- p=α/100이면 p분위수 quantile

- α=0; 표본평균

- α=50; 표본중앙값


3. 표본최빈값 Sample mode

- 자료 중 빈도가 가장 많은 값

- 여러개 일수도 있음

- 연속형 자료의 경우 없을수도 있음


3-3

1. 산포 Dispersion


2. 범위 Range

자료 중 Max-min


3. 사분위(간)범위 Interquartile-Range

- 사분위수 quaritle: 25, 50, 75% 지점

- 제2사분위수(Q2)는 표본중앙값

- IQR = Q3-Q1


3-4

1. 표본분산 Sample variance

n-1: 자유도 degree of freedom

마지막 데이터 하나는 정보가 아니라, 합을 0으로 만들어주기 위한 것이라서


2. 표본표준편차 Sample standard deviation


3. 표준화 Standardization

평균=0, 표준편차1 -> 측정 단위에 영향을 받지 않아 절대비교 가능


4. 변동계수 Coefficient of variation

표준편차가 평균에 영향을 받는 경우

ex) 다이어트 목표 체중에서 100kg인 사람이 10kg, 50kg인 사람이 10kg 감량할 때, 각 10%, 20% 감량하게 되는 것

표준편차만 이용하여 산포를 비교하는 건 적절하지 않을 수 있어서 평균으로 표준편차 보정


3-5

1. 왜도 skewness

- 자료가 대칭인지, 한쪽으로 기울어져 있는지에 대한 측도

- 두터운 꼬리 heavy tail: 꼬리가 길게 분포한 것

- 양의왜도 positive skeweness/skewed to the right: 큰 양수값을 가짐

- 음의 왜도 negative skewness, skewed to the left

- 정규분포의 경우 왜도는 0


2. 첨도 kurtosis

- 양쪽 꼬리가 얼마나 두터운지를 나타내는 측도

- 뾰족한 정도

- 정규분포의 경우 청도는 3


-> 심한 왜도 or 큰 첨도를 가질 경우, 이상점이 있을 가능성이 높아짐



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info

'분석 > 통계분석' 카테고리의 다른 글

2. 자료의 분류  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

2-1

자료의 분류

1. 범주형 자료 Categorial data

(1) 명목자료 Nominal data

숫자로 바꾸어도 그 값이 크고 작음이 아니라, 단순히 범주를 표시

(2) 순서자료 Ordinal data

- 범주의 순서가 상대 비교 가능

- 범주화를 통해 수치자료를 순서자료로 바꾼 것

ex) 학점 (A~F), 선호도(매우 좋음~매우 나쁨)


2. 수치자료 Numerical data

(1) 이산자료 Discrete data

셀 수 있는 형태의 자료 countable data

(2) 연속자료 Continuous data

연속적인 속성을 갖는 자료

ex) 신장, 체중, 시간

164.57cm / 51.13kg 이런식으로 연속적임


2-3

도수분포표 Frequency table



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info

'분석 > 통계분석' 카테고리의 다른 글

3. 평균/산포  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

1-1

통계학이란?

- 관심/연구 대상인 모집단의 특성을 파악하기 위해 자료를 수집하고, 

- 그 자료를 정리/요약/분석하여 표본의 특성을 파악한 후,

- 표본의 특성을 이용해 모집단의 특성에 대해 추론하는 것

===> 모집단에서 설문조사/실험/관찰을 통해서 표본을 추출하고, 표본에 대해 통계적 추론으로 표본의 특성으로 그 모집단을 추론하는 것


1-2

1. 확률표본추출 probability sampling

(1) 단순확률추출 SRS, Simple Random Sampling

모집단N에서 표본n을 무작위 추출

(2) 계통추출 Systematic Sampling

- 1~k번째 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 추출

- 선거출구조사 등에 사용

(3) 집락추출 Cluster Sampling

- 서로 인접한 조사단위들을 묶어 집락을 추출하고, 집락 내의 조사단위들을 조사

ex 서울시 고등학교 월평균 사교육비 조사해야할 시, 1단계) 고등학교를 추출하고, 2단계) 학생을 추출한다.

(개인적으로, 집락추출은 크기의 구분이 아닌, 직접 분류화가 필요할 때 사용하는 것인듯?)

(4) 층화추출 Stratified Random Sampling

- 층을 나눈 후, SRS 시행

ex 서울 서점 월매출액 추정해야할 시, 서점을 소/중/대형으로 분류한 후 표본을 추출한다


2. 비확률표본추출 non-probability sampling

- 특정 표본이 선정될 확률을 알 수 없음

- 추론결과의 정확도가 낮음

ex

(1) 편의추출: 자발적 참여, 백화점 앞/포털사이트 인터넷 조사

(2) 유의추출: 전문가 선택

(3) 할당추출: 랜덤화 과정 없이 구성비에 의해 조사대사 선택 


- 목표모집단

- 조사모집단(실제로 조사가능한 범위의 모집단)


1-3

1. 가중치 weight



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/pdfbook/0/

'분석 > 통계분석' 카테고리의 다른 글

3. 평균/산포  (0) 2019.02.10
2. 자료의 분류  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

+ Recent posts