의사결정나무


분류/확률(추정)을 위한 것


다지분리?


회귀나무(regression tree)도 의사결정나무를 만들어 예측 가능하다.


목표변수가 연속형 값일 경우 -> 의사결정나무보다는 회귀모델이나 인공신경망 사용하는게 좋음


의사결정나무 알고리즘

-. 목표변수(부모노드) - 순수도(자식노드) - 순수도 - 순수도


의사결정나무 목표

입력변수 값을 기초로 의사결정나무를 만드는 것



*범주형 타겟 변수 : gini척도, 정보이익, 카이제곱

*연속형 목표 변수 : f-test, 분산


회귀분석은 결측값이 있으면 안 됨!

아예 빼거나 다른 값 넣기


의사결정나무는 결측값 있어도 ㄱㅊㄱㅊ NULL도 하나의 값으로 인식함



순수도 척도 : 0~1까지 부여

1이 아주 순수함(한 노드에 클래스 1개일 경우)

이 값에서 1을 빼면 다양성 척도




- 범주형 변수에 대한 분할을 평가하는 순수도 척도 : 지나, 엔트로피, 정보 이익, 정보 이익 비율, 카이제곱 검정

- 수치형 목표 변수의 경우 : 분산의 감소, F검정


지니 

- 모집단의 순수도 판정

- 인구 다양성을 조사하는 생물학자와 환경 공학자들이 자주 사용

- 랜덤하게 추출했을 때, 그 클래스가 동일한 클래스에 있을 확률

- 완전 순수한 노드의 경우 지니척도는 1이다



엔트로피 감소(정보 이익)

- 정보 이론(머신 러닝 기법)에서 가져온 기법

- 비트 수 개념

ex 16가지 가능한 상태들이 있다면 log2 (16) 즉, 4비트 이다.




정보 이익 비율(information gain ratio)

- 클래스를 나눌 때 가지가 많으면 패널티를 주는 방식

- bushy trees : 잔가지가 많은 트리




카이제곱검정(chi-square by Pearson)

- 통계학적 유의성에 대한 검정

- 범주에 대한 기대값과 관측값의 표준화된 차이의 제곱들의 합으로 정의

- 관측된 표본들 간의 차이가 우연에 의한 것일 확률을 추정

- contingency table(분할표)

- 결과가 큰 수를 선택하는게 맞음

- CHAID[체이드] : 최선의 분할을 고를 때; 목표 변수에 대한 유의하게 다른 효과를 갖지 않은 클래스들을 통합할 때(분할 된 노드를 하나로 합치는 것이 어떨까); 노드에 대하여 추가적인 분할이 필요한 지를 결정할 때

- 범주형일 경우 사용

(but, 연속형 변수의 경우에는 분산 or F-검정 사용)




F 검정

- 다른 평균과 분산을 가진 표본들이 같은 모집단에서 실제로 나왔을 확률에 대한 척도 제공

- F 점수 : 두 추정치의 비율

- 하나는 모든 표본을 포함하는 집단에서 합쳐진 분산으로 부터, 다른 하나는 표본 평균들로 계산된 표본들 사이의 분산으로 유도

- 점수가 클 수록 표본들이 같은 모집단에서 나왔을 확률이 낮음

'분석 > 통계분석' 카테고리의 다른 글

보간법(interpolation)  (0) 2019.01.30
[비선형 회귀 분석]  (0) 2018.12.11
계수 중 e 지수 계산하기  (1) 2018.09.17
임계값  (0) 2018.07.24
독립변수/종속변수  (0) 2018.05.08

+ Recent posts