ADsP 시험

[ADsP] 4장 3절 회귀분석

푸른잎 뱅갈고무나무 2021. 4. 29. 13:43

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사

녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다.

 

1. 회귀분석의 개요

다. (선형)회귀분석의 가정. 잘 정리된 자료 링크 (specialscene.tistory.com/89)

   1) 선형성 : 선형 회귀분석이니까...당연히 중요하다.

   2) 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다.

       반대되는 개념은 이분산성.

   3) 독립성 : 오차와 입력변수는 관련이 없다. 독립변수간 오차는 관련이 없다.

   4) 비상관성 : 오차들끼리 상관이 없다

   5) 정상성(정규성) : 오차의 분포가 정규분포를 따른다. Q-Q Plot 등을 활용하여 확인

 

2. 단순선형회귀 분석

다. 회귀분석의 검정

   1) Multiple / Adjusted R-squared : 설명(결정)계수. 모형이 얼마나 잘 적합한지를 나타낸다. pearson-r의 제곱

   2) t 통계량의 p-value : 통상 0.05보다 값이 작으면 유의미하게 본다

 

3. 다중선형회귀 분석

다. 회귀분석의 검정

   1) Multiple / Adjusted R-squared : 설명(결정)계수. 모형이 얼마나 잘 적합한지를 나타낸다. pearson-r의 제곱

   2) F 통계량의 p-value : 통상 0.05보다 값이 작으면 유의미하게 본다

   3) 각 변수별 p-value(Pr) : 각 변수별 p-value가 통상 0.05보다 작으면 유의미

 

6. 최적회귀방정식

가. 최적회귀방정식의 선택

   1) 가능한 범위에서 적은 수의 설명변수를 포함

   2) 모형선택 (Exploratory Data Analysis), EDA : 모든 가능한 독립변수들의 조합에 대해 회귀모형 생성 후 선택

   3) 단계적 변수선택

       - 전진(forward)선택법 : 중요하다고 생각되는 변수부터 모형에 추가

       - 후진(backward)제거법

나. 벌점화된 선택기준

   - AIC 또는 BIC (모형 복잡도)가 최소가 되는 모형을 선택