의사결정나무


분류/확률(추정)을 위한 것


다지분리?


회귀나무(regression tree)도 의사결정나무를 만들어 예측 가능하다.


목표변수가 연속형 값일 경우 -> 의사결정나무보다는 회귀모델이나 인공신경망 사용하는게 좋음


의사결정나무 알고리즘

-. 목표변수(부모노드) - 순수도(자식노드) - 순수도 - 순수도


의사결정나무 목표

입력변수 값을 기초로 의사결정나무를 만드는 것



*범주형 타겟 변수 : gini척도, 정보이익, 카이제곱

*연속형 목표 변수 : f-test, 분산


회귀분석은 결측값이 있으면 안 됨!

아예 빼거나 다른 값 넣기


의사결정나무는 결측값 있어도 ㄱㅊㄱㅊ NULL도 하나의 값으로 인식함



순수도 척도 : 0~1까지 부여

1이 아주 순수함(한 노드에 클래스 1개일 경우)

이 값에서 1을 빼면 다양성 척도




- 범주형 변수에 대한 분할을 평가하는 순수도 척도 : 지나, 엔트로피, 정보 이익, 정보 이익 비율, 카이제곱 검정

- 수치형 목표 변수의 경우 : 분산의 감소, F검정


지니 

- 모집단의 순수도 판정

- 인구 다양성을 조사하는 생물학자와 환경 공학자들이 자주 사용

- 랜덤하게 추출했을 때, 그 클래스가 동일한 클래스에 있을 확률

- 완전 순수한 노드의 경우 지니척도는 1이다



엔트로피 감소(정보 이익)

- 정보 이론(머신 러닝 기법)에서 가져온 기법

- 비트 수 개념

ex 16가지 가능한 상태들이 있다면 log2 (16) 즉, 4비트 이다.




정보 이익 비율(information gain ratio)

- 클래스를 나눌 때 가지가 많으면 패널티를 주는 방식

- bushy trees : 잔가지가 많은 트리




카이제곱검정(chi-square by Pearson)

- 통계학적 유의성에 대한 검정

- 범주에 대한 기대값과 관측값의 표준화된 차이의 제곱들의 합으로 정의

- 관측된 표본들 간의 차이가 우연에 의한 것일 확률을 추정

- contingency table(분할표)

- 결과가 큰 수를 선택하는게 맞음

- CHAID[체이드] : 최선의 분할을 고를 때; 목표 변수에 대한 유의하게 다른 효과를 갖지 않은 클래스들을 통합할 때(분할 된 노드를 하나로 합치는 것이 어떨까); 노드에 대하여 추가적인 분할이 필요한 지를 결정할 때

- 범주형일 경우 사용

(but, 연속형 변수의 경우에는 분산 or F-검정 사용)




F 검정

- 다른 평균과 분산을 가진 표본들이 같은 모집단에서 실제로 나왔을 확률에 대한 척도 제공

- F 점수 : 두 추정치의 비율

- 하나는 모든 표본을 포함하는 집단에서 합쳐진 분산으로 부터, 다른 하나는 표본 평균들로 계산된 표본들 사이의 분산으로 유도

- 점수가 클 수록 표본들이 같은 모집단에서 나왔을 확률이 낮음

'분석 > 통계분석' 카테고리의 다른 글

보간법(interpolation)  (0) 2019.01.30
[비선형 회귀 분석]  (0) 2018.12.11
계수 중 e 지수 계산하기  (1) 2018.09.17
임계값  (0) 2018.07.24
독립변수/종속변수  (0) 2018.05.08

독립변수

연구자가 의도적으로 변화시키는 변수

종속변수에 영향을 주는 변수

다른 변수에 영향을 받지 않음


종속변수

연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수

독립변수에 영향을 받아서 변화하는 변수



'분석 > 통계분석' 카테고리의 다른 글

보간법(interpolation)  (0) 2019.01.30
[비선형 회귀 분석]  (0) 2018.12.11
계수 중 e 지수 계산하기  (1) 2018.09.17
임계값  (0) 2018.07.24
통계기본 (감이 안 잡힌다)  (0) 2018.06.02

+ Recent posts