3-1

1. 표본평균 Sample mean

- 표본비율 Sample proportion

i번째 관측값이 어떤 범주에 속하면 1, 속하지 않으면 0으로 표시(무슨 뜻이지?)

- 이상점 Outlier

이상점에 robust하지 않다 (= 이상점 때문에 평균으로는 데이터를 설명하기 힘들다)

2. 가중평균 Weighted mean

가중치를 두어서 평균을 계산

3. 기하평균 Geometric mean

4. 조화평균 Harmonic mean


3-2 

1. 표본중앙값(표본중위수) Sample median

- 중간값

- 극단적인 값에 영향을 받지 않음

- 이상점에 robust하다

- 자료의 정보를 다 사용하지 못함

- 평균값과 중앙값이 비슷하다면 평균을 사용하기

- x(i) i번째로 작은 값

순서통계량: 표본을 오름차순으로 정렬한 것

x(1), x(2), ..., x(i)


2. 표본절사평균 Sample trimmed mean

α% 표본절사평균: 순서통계량에서 하위 α%부터 상위 α%까지의 자료를 사용하여 표본평균 계산

(이상점을 잘라내기 위해 앞뒤로 α%를 잘라내고 평균내는 것)

- α백분위수 percentile: 하위 α%에 해당하는 값

- p=α/100이면 p분위수 quantile

- α=0; 표본평균

- α=50; 표본중앙값


3. 표본최빈값 Sample mode

- 자료 중 빈도가 가장 많은 값

- 여러개 일수도 있음

- 연속형 자료의 경우 없을수도 있음


3-3

1. 산포 Dispersion


2. 범위 Range

자료 중 Max-min


3. 사분위(간)범위 Interquartile-Range

- 사분위수 quaritle: 25, 50, 75% 지점

- 제2사분위수(Q2)는 표본중앙값

- IQR = Q3-Q1


3-4

1. 표본분산 Sample variance

n-1: 자유도 degree of freedom

마지막 데이터 하나는 정보가 아니라, 합을 0으로 만들어주기 위한 것이라서


2. 표본표준편차 Sample standard deviation


3. 표준화 Standardization

평균=0, 표준편차1 -> 측정 단위에 영향을 받지 않아 절대비교 가능


4. 변동계수 Coefficient of variation

표준편차가 평균에 영향을 받는 경우

ex) 다이어트 목표 체중에서 100kg인 사람이 10kg, 50kg인 사람이 10kg 감량할 때, 각 10%, 20% 감량하게 되는 것

표준편차만 이용하여 산포를 비교하는 건 적절하지 않을 수 있어서 평균으로 표준편차 보정


3-5

1. 왜도 skewness

- 자료가 대칭인지, 한쪽으로 기울어져 있는지에 대한 측도

- 두터운 꼬리 heavy tail: 꼬리가 길게 분포한 것

- 양의왜도 positive skeweness/skewed to the right: 큰 양수값을 가짐

- 음의 왜도 negative skewness, skewed to the left

- 정규분포의 경우 왜도는 0


2. 첨도 kurtosis

- 양쪽 꼬리가 얼마나 두터운지를 나타내는 측도

- 뾰족한 정도

- 정규분포의 경우 청도는 3


-> 심한 왜도 or 큰 첨도를 가질 경우, 이상점이 있을 가능성이 높아짐



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info

'분석 > 통계분석' 카테고리의 다른 글

2. 자료의 분류  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

+ Recent posts