ADsP 시험

[ADsP] 5장 데이터 마이닝 - 2절 분류분석

푸른잎 뱅갈고무나무 2021. 5. 11. 02:06

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사

녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다.

 

1. 분류분석

   가. 분류분석(Classification)의 정의

      - 데이터가 어떤 그룹에 속하는지 예측하는 기법

      - 군집화(Clustering)과 유사하지만, 분류분석은 각 그룹이 정의되어 있다.

      - 교사학습(Supervised Learning)에 해당

   바. 분류기법

      - Logistic Regression (로지스틱 회귀분석)

      - Decision Tree (의사결정 나무)

      - Bayesian Classification (베이지안 분류)

      - ANN (Artificial Neural Network)

 

2. Logistic Regression (로지스틱 회귀분석)

   가. 개요 (위키백과)

      로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (classification) 기법으로도 볼 수 있다. 흔히 로지스틱 회귀는 종속변수가 이항형 문제(즉, 유효한 범주의 개수가 두개인 경우)를 지칭할 때 사용된다. 이외에, 두 개 이상의 범주를 가지는 문제가 대상인 경우엔 다항 로지스틱 회귀 (multinomial logistic regression) 라고 한다

   나. 함수와 오즈비(odds ratio)

       - 식 : 로지스틱 회귀는 연속이고 증가함수이며 [0,1]에서 값을 갖는 연결 함수 g(x)를 제안하였다. 연결함수의 형태는 다양하게 존재하는데 그 중 대표적인 두 개는 아래와 같으며 이 중에 계산상의 편리성으로 인하여 로지스틱 모형이 널리 사용된다

 

 

 

      - 오즈비 : 오즈(odds)는 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 확률이며, 오즈비는 오즈의 비율이다.

  다. Optimizer는 최대우도법(MLE : Maximum Likelihood Estimation)을 모형 검정은 카이제곱 검정을 사용한다.

 

 

3. 의사결정나무

   가. 정의 및 장점

      - 의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법이다.

      - 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 한다. 

      - 결과를 누구에게나 설명하기 용이하다

      - 대용량 데이터도 빠르게 만들 수 있다

      - 비정상 데이터에 대해서도 민감함이 없이 분류할 수 있다

      - 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향을 받지 않는다

      - 설명변수나 목표변수에 수치형변수와 범주형변수를 모두 사용 가능하다

      - 모형 분류 정확도가 높다

   나. 단점

      - 과대적합(Overfitting)의 가능성이 높다

   마. 의사결정나무의 분석 과정

     1) 성장 단계 : 분리규칙을 찾아서 나무를 성장 시키는 과정으로 정지규칙을 만족하면 중단

     2) 가지치기 : 불필요한 가지 제거

     3) 타당성 평가

     4) 해석 및 예측

 

   바. 성장단계

     1) 최적의 분할의 결정은 불순도 감소량을 크게 하는 분할이다

     2) 분리기준

        - 이산형 목표 변수 : 카이제곱, 지니지수, 엔트로피 지수

        - 연속형 목표 변수 : F통계량, 분산의 감소량

 

4. 불순도의 여러가지 측도

     1) 카이제곱 통계량

        [실제도수 - 기대도수(빈도수)]^2 / 기대도수의 합

        * 기대도수 = 열의합 x 행의합 /  전체합계 (egloos.zum.com/ontogen/v/3313945)

 

     2) 지니계수 (출처: https://leedakyeong.tistory.com/entry/의사결정나무Decision-Tree-CART-알고리즘-지니계수Gini-Index란 [슈퍼짱짱])

       

   3) 엔트로피 지수