3-1

1. 표본평균 Sample mean

- 표본비율 Sample proportion

i번째 관측값이 어떤 범주에 속하면 1, 속하지 않으면 0으로 표시(무슨 뜻이지?)

- 이상점 Outlier

이상점에 robust하지 않다 (= 이상점 때문에 평균으로는 데이터를 설명하기 힘들다)

2. 가중평균 Weighted mean

가중치를 두어서 평균을 계산

3. 기하평균 Geometric mean

4. 조화평균 Harmonic mean


3-2 

1. 표본중앙값(표본중위수) Sample median

- 중간값

- 극단적인 값에 영향을 받지 않음

- 이상점에 robust하다

- 자료의 정보를 다 사용하지 못함

- 평균값과 중앙값이 비슷하다면 평균을 사용하기

- x(i) i번째로 작은 값

순서통계량: 표본을 오름차순으로 정렬한 것

x(1), x(2), ..., x(i)


2. 표본절사평균 Sample trimmed mean

α% 표본절사평균: 순서통계량에서 하위 α%부터 상위 α%까지의 자료를 사용하여 표본평균 계산

(이상점을 잘라내기 위해 앞뒤로 α%를 잘라내고 평균내는 것)

- α백분위수 percentile: 하위 α%에 해당하는 값

- p=α/100이면 p분위수 quantile

- α=0; 표본평균

- α=50; 표본중앙값


3. 표본최빈값 Sample mode

- 자료 중 빈도가 가장 많은 값

- 여러개 일수도 있음

- 연속형 자료의 경우 없을수도 있음


3-3

1. 산포 Dispersion


2. 범위 Range

자료 중 Max-min


3. 사분위(간)범위 Interquartile-Range

- 사분위수 quaritle: 25, 50, 75% 지점

- 제2사분위수(Q2)는 표본중앙값

- IQR = Q3-Q1


3-4

1. 표본분산 Sample variance

n-1: 자유도 degree of freedom

마지막 데이터 하나는 정보가 아니라, 합을 0으로 만들어주기 위한 것이라서


2. 표본표준편차 Sample standard deviation


3. 표준화 Standardization

평균=0, 표준편차1 -> 측정 단위에 영향을 받지 않아 절대비교 가능


4. 변동계수 Coefficient of variation

표준편차가 평균에 영향을 받는 경우

ex) 다이어트 목표 체중에서 100kg인 사람이 10kg, 50kg인 사람이 10kg 감량할 때, 각 10%, 20% 감량하게 되는 것

표준편차만 이용하여 산포를 비교하는 건 적절하지 않을 수 있어서 평균으로 표준편차 보정


3-5

1. 왜도 skewness

- 자료가 대칭인지, 한쪽으로 기울어져 있는지에 대한 측도

- 두터운 꼬리 heavy tail: 꼬리가 길게 분포한 것

- 양의왜도 positive skeweness/skewed to the right: 큰 양수값을 가짐

- 음의 왜도 negative skewness, skewed to the left

- 정규분포의 경우 왜도는 0


2. 첨도 kurtosis

- 양쪽 꼬리가 얼마나 두터운지를 나타내는 측도

- 뾰족한 정도

- 정규분포의 경우 청도는 3


-> 심한 왜도 or 큰 첨도를 가질 경우, 이상점이 있을 가능성이 높아짐



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info

'분석 > 통계분석' 카테고리의 다른 글

2. 자료의 분류  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

2-1

자료의 분류

1. 범주형 자료 Categorial data

(1) 명목자료 Nominal data

숫자로 바꾸어도 그 값이 크고 작음이 아니라, 단순히 범주를 표시

(2) 순서자료 Ordinal data

- 범주의 순서가 상대 비교 가능

- 범주화를 통해 수치자료를 순서자료로 바꾼 것

ex) 학점 (A~F), 선호도(매우 좋음~매우 나쁨)


2. 수치자료 Numerical data

(1) 이산자료 Discrete data

셀 수 있는 형태의 자료 countable data

(2) 연속자료 Continuous data

연속적인 속성을 갖는 자료

ex) 신장, 체중, 시간

164.57cm / 51.13kg 이런식으로 연속적임


2-3

도수분포표 Frequency table



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/info

'분석 > 통계분석' 카테고리의 다른 글

3. 평균/산포  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

1-1

통계학이란?

- 관심/연구 대상인 모집단의 특성을 파악하기 위해 자료를 수집하고, 

- 그 자료를 정리/요약/분석하여 표본의 특성을 파악한 후,

- 표본의 특성을 이용해 모집단의 특성에 대해 추론하는 것

===> 모집단에서 설문조사/실험/관찰을 통해서 표본을 추출하고, 표본에 대해 통계적 추론으로 표본의 특성으로 그 모집단을 추론하는 것


1-2

1. 확률표본추출 probability sampling

(1) 단순확률추출 SRS, Simple Random Sampling

모집단N에서 표본n을 무작위 추출

(2) 계통추출 Systematic Sampling

- 1~k번째 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 추출

- 선거출구조사 등에 사용

(3) 집락추출 Cluster Sampling

- 서로 인접한 조사단위들을 묶어 집락을 추출하고, 집락 내의 조사단위들을 조사

ex 서울시 고등학교 월평균 사교육비 조사해야할 시, 1단계) 고등학교를 추출하고, 2단계) 학생을 추출한다.

(개인적으로, 집락추출은 크기의 구분이 아닌, 직접 분류화가 필요할 때 사용하는 것인듯?)

(4) 층화추출 Stratified Random Sampling

- 층을 나눈 후, SRS 시행

ex 서울 서점 월매출액 추정해야할 시, 서점을 소/중/대형으로 분류한 후 표본을 추출한다


2. 비확률표본추출 non-probability sampling

- 특정 표본이 선정될 확률을 알 수 없음

- 추론결과의 정확도가 낮음

ex

(1) 편의추출: 자발적 참여, 백화점 앞/포털사이트 인터넷 조사

(2) 유의추출: 전문가 선택

(3) 할당추출: 랜덤화 과정 없이 구성비에 의해 조사대사 선택 


- 목표모집단

- 조사모집단(실제로 조사가능한 범위의 모집단)


1-3

1. 가중치 weight



출처: http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2018_02SM_02/pdfbook/0/

'분석 > 통계분석' 카테고리의 다른 글

3. 평균/산포  (0) 2019.02.10
2. 자료의 분류  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30

RMSE(root-mean-squared error)

It does this by measuring difference between predicted values and the actual values.

In a good model, the RMSE should be close for both your testing data and your training data.

출처: https://www.quora.com/What-is-the-meaning-of-root-mean-squared-error-RMSE-in-statistics

'분석 > 통계분석' 카테고리의 다른 글

2. 자료의 분류  (0) 2019.02.10
1. 통계학이란/표본추출법  (0) 2019.02.10
학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30
보간법(interpolation)  (0) 2019.01.30

학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류

1) 시계열 데이터가 아닌 경우

- seed 설정 후 분류


2) 시계열 데이터일 경우

Training data - 오래된 데이터

Validation data - 그 다음 데이터

Test data - 가장 최신의 데이터


참고: http://kkokkilkon.tistory.com/13

'분석 > 통계분석' 카테고리의 다른 글

1. 통계학이란/표본추출법  (0) 2019.02.10
RMSE(root-mean-squared error)  (0) 2019.01.30
시계열 분석  (0) 2019.01.30
보간법(interpolation)  (0) 2019.01.30
[비선형 회귀 분석]  (0) 2018.12.11

시계열 분석 시, 주로 monthly, yearly 혹은 weekly 데이터로 추정함


daily데이터로는 추정하는 경우는, 일자별로 데이터 수가 중요할 때

예를 들면, 업무시간! 월~금의 업무시간과 주말의 업무시간은 차이가 날 수 밖에 없음

보간법(interpolation) 

가장 기본이 되는건 선형보간법으로 데이터 평균으로 추측하는 법

'분석 > 통계분석' 카테고리의 다른 글

학습용(Training), 검증용(Validation), 시험용(Test) 데이터 분류  (0) 2019.01.30
시계열 분석  (0) 2019.01.30
[비선형 회귀 분석]  (0) 2018.12.11
계수 중 e 지수 계산하기  (1) 2018.09.17
임계값  (0) 2018.07.24

[비선형 회귀 분석]


계량형 반응 변수와 하나 이상의 예측 변수 사이의 비선형 관계를 설명하는 방정식을 생성하고 새 관측치를 예측하는 것이다.

선형 모수를 사용하여 관계를 적절히 모형화할 수 없을 때는 범용 최소 제곱법 대신 비선형 회귀 분석을 사용한다.

모형의 각 항이 가법적이고 항에 곱하는 모수가 하나뿐일 경우에는 모수가 선형이다.



[선형 회귀분석과의 비교]


(유사성)

- 하나의 반응 변수와 하나 이상의 예측 변수 사이의 관계를 수학적으로 설명한다.

- 곡선 형태의 관계를 모형화할 수 있다.

- 잔차 오차의 제곱합(SSE)을 최소화한다.

- 잔차 그림을 사용하여 확인할 수 있는 동일한 가정을 가진다.


(차이점)

선형 회귀 분석: 선형 모수가 필요 | 방정식이 한 가지 기본 형태를 취함(모형의 각 항이 가법적이고 항에 곱하는 모수가 하나뿐일 경우 모수가 선형임)

비선형 회귀 분석: 선형 모수가 필요 없음 | 여러가지 방정식을 취할 수 있음





많은 회귀분석은 비선형회귀일 가능성이 높다.

급격한 상승은 로그모형이나 지수 모형을 사용해야 한다.

또한 증가하다가 일시 감소하다 다시 증가하면 2~5차 등 다항식을 사용해야 한다.

'분석 > 통계분석' 카테고리의 다른 글

시계열 분석  (0) 2019.01.30
보간법(interpolation)  (0) 2019.01.30
계수 중 e 지수 계산하기  (1) 2018.09.17
임계값  (0) 2018.07.24
통계기본 (감이 안 잡힌다)  (0) 2018.06.02

1.361e-01 계산하기

1.36 * 0.1

0.136??



1.882e+02 계산하기

1.8 * 100

180??

'분석 > 통계분석' 카테고리의 다른 글

보간법(interpolation)  (0) 2019.01.30
[비선형 회귀 분석]  (0) 2018.12.11
임계값  (0) 2018.07.24
통계기본 (감이 안 잡힌다)  (0) 2018.06.02
독립변수/종속변수  (0) 2018.05.08

임계값

임계값(critical value)은 귀무 가설 하 검정 통계량의 분포에서 귀무 가설을 기각해야 하는 값의 집합을 정의하는 점입니다. 이 집합은 임계 또는 기각 영역이라고 합니다. 


카이제곱 검증

독립/종속변수=범주형 자료


T검증or분산분석

독립변수=범주형 자료

종속변수=연속형 자료

'분석 > 통계분석' 카테고리의 다른 글

보간법(interpolation)  (0) 2019.01.30
[비선형 회귀 분석]  (0) 2018.12.11
계수 중 e 지수 계산하기  (1) 2018.09.17
통계기본 (감이 안 잡힌다)  (0) 2018.06.02
독립변수/종속변수  (0) 2018.05.08

+ Recent posts