의사결정나무
분류/확률(추정)을 위한 것
다지분리?
회귀나무(regression tree)도 의사결정나무를 만들어 예측 가능하다.
목표변수가 연속형 값일 경우 -> 의사결정나무보다는 회귀모델이나 인공신경망 사용하는게 좋음
의사결정나무 알고리즘
-. 목표변수(부모노드) - 순수도(자식노드) - 순수도 - 순수도
의사결정나무 목표
입력변수 값을 기초로 의사결정나무를 만드는 것
*범주형 타겟 변수 : gini척도, 정보이익, 카이제곱
*연속형 목표 변수 : f-test, 분산
회귀분석은 결측값이 있으면 안 됨!
아예 빼거나 다른 값 넣기
의사결정나무는 결측값 있어도 ㄱㅊㄱㅊ NULL도 하나의 값으로 인식함
순수도 척도 : 0~1까지 부여
1이 아주 순수함(한 노드에 클래스 1개일 경우)
이 값에서 1을 빼면 다양성 척도
- 범주형 변수에 대한 분할을 평가하는 순수도 척도 : 지나, 엔트로피, 정보 이익, 정보 이익 비율, 카이제곱 검정
- 수치형 목표 변수의 경우 : 분산의 감소, F검정
지니
- 모집단의 순수도 판정
- 인구 다양성을 조사하는 생물학자와 환경 공학자들이 자주 사용
- 랜덤하게 추출했을 때, 그 클래스가 동일한 클래스에 있을 확률
- 완전 순수한 노드의 경우 지니척도는 1이다
엔트로피 감소(정보 이익)
- 정보 이론(머신 러닝 기법)에서 가져온 기법
- 비트 수 개념
ex 16가지 가능한 상태들이 있다면 log2 (16) 즉, 4비트 이다.
정보 이익 비율(information gain ratio)
- 클래스를 나눌 때 가지가 많으면 패널티를 주는 방식
- bushy trees : 잔가지가 많은 트리
카이제곱검정(chi-square by Pearson)
- 통계학적 유의성에 대한 검정
- 범주에 대한 기대값과 관측값의 표준화된 차이의 제곱들의 합으로 정의
- 관측된 표본들 간의 차이가 우연에 의한 것일 확률을 추정
- contingency table(분할표)
- 결과가 큰 수를 선택하는게 맞음
- CHAID[체이드] : 최선의 분할을 고를 때; 목표 변수에 대한 유의하게 다른 효과를 갖지 않은 클래스들을 통합할 때(분할 된 노드를 하나로 합치는 것이 어떨까); 노드에 대하여 추가적인 분할이 필요한 지를 결정할 때
- 범주형일 경우 사용
(but, 연속형 변수의 경우에는 분산 or F-검정 사용)
F 검정
- 다른 평균과 분산을 가진 표본들이 같은 모집단에서 실제로 나왔을 확률에 대한 척도 제공
- F 점수 : 두 추정치의 비율
- 하나는 모든 표본을 포함하는 집단에서 합쳐진 분산으로 부터, 다른 하나는 표본 평균들로 계산된 표본들 사이의 분산으로 유도
- 점수가 클 수록 표본들이 같은 모집단에서 나왔을 확률이 낮음