[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사
녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다.
1. 회귀분석의 개요
다. (선형)회귀분석의 가정. 잘 정리된 자료 링크 (specialscene.tistory.com/89)
1) 선형성 : 선형 회귀분석이니까...당연히 중요하다.
2) 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다.
반대되는 개념은 이분산성.
3) 독립성 : 오차와 입력변수는 관련이 없다. 독립변수간 오차는 관련이 없다.
4) 비상관성 : 오차들끼리 상관이 없다
5) 정상성(정규성) : 오차의 분포가 정규분포를 따른다. Q-Q Plot 등을 활용하여 확인
2. 단순선형회귀 분석
다. 회귀분석의 검정
1) Multiple / Adjusted R-squared : 설명(결정)계수. 모형이 얼마나 잘 적합한지를 나타낸다. pearson-r의 제곱
2) t 통계량의 p-value : 통상 0.05보다 값이 작으면 유의미하게 본다
3. 다중선형회귀 분석
다. 회귀분석의 검정
1) Multiple / Adjusted R-squared : 설명(결정)계수. 모형이 얼마나 잘 적합한지를 나타낸다. pearson-r의 제곱
2) F 통계량의 p-value : 통상 0.05보다 값이 작으면 유의미하게 본다
3) 각 변수별 p-value(Pr) : 각 변수별 p-value가 통상 0.05보다 작으면 유의미
6. 최적회귀방정식
가. 최적회귀방정식의 선택
1) 가능한 범위에서 적은 수의 설명변수를 포함
2) 모형선택 (Exploratory Data Analysis), EDA : 모든 가능한 독립변수들의 조합에 대해 회귀모형 생성 후 선택
3) 단계적 변수선택
- 전진(forward)선택법 : 중요하다고 생각되는 변수부터 모형에 추가
- 후진(backward)제거법
나. 벌점화된 선택기준
- AIC 또는 BIC (모형 복잡도)가 최소가 되는 모형을 선택
'ADsP 시험' 카테고리의 다른 글
ADsP 시험[ADsP] 5장 데이터 마이닝 - 3절 앙상블 분 (0) | 2021.05.11 |
---|---|
[ADsP] 5장 데이터 마이닝 - 2절 분류분석 (0) | 2021.05.11 |
[ADsP] 5장 데이터 마이닝 - 1절 데이터마이닝의 개요 (0) | 2021.05.07 |
[ADsP] 4장 4절 시계열자료 (0) | 2021.05.03 |
[ADsP] 3장 1절 통계분석의 이해 (0) | 2021.04.29 |