3-1
1. 표본평균 Sample mean
- 표본비율 Sample proportion
i번째 관측값이 어떤 범주에 속하면 1, 속하지 않으면 0으로 표시(무슨 뜻이지?)
- 이상점 Outlier
이상점에 robust하지 않다 (= 이상점 때문에 평균으로는 데이터를 설명하기 힘들다)
2. 가중평균 Weighted mean
가중치를 두어서 평균을 계산
3. 기하평균 Geometric mean
4. 조화평균 Harmonic mean
3-2
1. 표본중앙값(표본중위수) Sample median
- 중간값
- 극단적인 값에 영향을 받지 않음
- 이상점에 robust하다
- 자료의 정보를 다 사용하지 못함
- 평균값과 중앙값이 비슷하다면 평균을 사용하기
- x(i) i번째로 작은 값
순서통계량: 표본을 오름차순으로 정렬한 것
x(1), x(2), ..., x(i)
2. 표본절사평균 Sample trimmed mean
α% 표본절사평균: 순서통계량에서 하위 α%부터 상위 α%까지의 자료를 사용하여 표본평균 계산
(이상점을 잘라내기 위해 앞뒤로 α%를 잘라내고 평균내는 것)
- α백분위수 percentile: 하위 α%에 해당하는 값
- p=α/100이면 p분위수 quantile
- α=0; 표본평균
- α=50; 표본중앙값
3. 표본최빈값 Sample mode
- 자료 중 빈도가 가장 많은 값
- 여러개 일수도 있음
- 연속형 자료의 경우 없을수도 있음
3-3
1. 산포 Dispersion
2. 범위 Range
자료 중 Max-min
3. 사분위(간)범위 Interquartile-Range
- 사분위수 quaritle: 25, 50, 75% 지점
- 제2사분위수(Q2)는 표본중앙값
- IQR = Q3-Q1
3-4
1. 표본분산 Sample variance
n-1: 자유도 degree of freedom
마지막 데이터 하나는 정보가 아니라, 합을 0으로 만들어주기 위한 것이라서
2. 표본표준편차 Sample standard deviation
3. 표준화 Standardization
평균=0, 표준편차1 -> 측정 단위에 영향을 받지 않아 절대비교 가능
4. 변동계수 Coefficient of variation
표준편차가 평균에 영향을 받는 경우
ex) 다이어트 목표 체중에서 100kg인 사람이 10kg, 50kg인 사람이 10kg 감량할 때, 각 10%, 20% 감량하게 되는 것
표준편차만 이용하여 산포를 비교하는 건 적절하지 않을 수 있어서 평균으로 표준편차 보정
3-5
1. 왜도 skewness
- 자료가 대칭인지, 한쪽으로 기울어져 있는지에 대한 측도
- 두터운 꼬리 heavy tail: 꼬리가 길게 분포한 것
- 양의왜도 positive skeweness/skewed to the right: 큰 양수값을 가짐
- 음의 왜도 negative skewness, skewed to the left
- 정규분포의 경우 왜도는 0
2. 첨도 kurtosis
- 양쪽 꼬리가 얼마나 두터운지를 나타내는 측도
- 뾰족한 정도
- 정규분포의 경우 청도는 3
-> 심한 왜도 or 큰 첨도를 가질 경우, 이상점이 있을 가능성이 높아짐
출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info
'분석 > 통계분석' 카테고리의 다른 글
2. 자료의 분류 (0) | 2019.02.10 |
---|---|
1. 통계학이란/표본추출법 (0) | 2019.02.10 |
RMSE(root-mean-squared error) (0) | 2019.01.30 |
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류 (0) | 2019.01.30 |
시계열 분석 (0) | 2019.01.30 |