데이터 교육

[통계교육] 어서와 데이터는 처음이지 - 미래예측을 위한 기초 개념 정리

푸른잎 뱅갈고무나무 2021. 4. 29. 11:51

 

[어서와 데이터는 처음이지]시리즈에서 완전정복하자!
1. 어서와 데이터는 처음이지 - 기초 of 기초 데이터 개념
2. 어서와 데이터는 처음이지 - 효과 검증을 위한 기초 개념
3. 어서와 데이터는 처음이지 - 미래 예측을 위한 기초 개념

 

어서와 데이터는 처음이지 시리즈 중 마지막인 "미래 예측을 위한 기초 개념"를 수강하고 각 강의 내용을 Keyword 별로 정리한 내용이다. 일단 강의의 평은 강의 Concept과 잘 맞게 초보자도 문과생도 쉽게 이해할 수 있는 편안한 강의다. 직접 수학문제를 푸는 것이 아니라 기본 개념을 쉽게 그리고 머리 속으로 떠올리며 따라갈 수 있게 해준다.

 

제1강 상관분석

 

1.1 상관분석의 목적 : 여러 데이터 간의 관계성(유사도)를 구하기 위함

1.2 유사도를 정의하는 방법에는

     1) 거리

     2) 원점에서의 각도

     3) 데이터의 변화 패턴(Pearson-r)을 구해보는 것이다

 

제2강 상관분석(pearson-r) 기초

 

2.1 r = (서로 같이 변화는 정도) / (서로 각기 변하는 정도) = 공분산 / 분산

       = 시그마(xy) / sqrt(시그마(x^2) * 시그마(y^2))

 

2.2 시그마 (x^2) = 분산,

     분자 = 공분산(공통분산)

 

제3~5강 상관분석 (pearson-r) - 데이터로 직접 확인 / 데이터의 관계성 / 상관값의 해석

 

3.1 두 데이터의 상관 관계 결과 값

     r = 1 : 두 데이터가 선형관계에 있음. 기울기가 양수

     r = 0 : 관계성이 없다

     r = -1 : 두 데이터가 선형관계에 있음. 단 기울기가 음수.

3.2 r값은 두 데이터 간의 관계 증가성을 나타냄 (양수, 음수, 경향 등)

 

3.3 일반적으로 절대값 r이 0.7 이상일 때 상관관계가 높다고 한다

     0.3이하는 상관관계가 없다

3.4 R^2(r의 제곱)으로 결정계수(설명력)을 사용한다.

     ex) 0.7(r) ^2 = 0.49 (R^2) --> 50%의 설명력을 가진다

 

제6~9강 회귀(Regression)

 

6.1 회귀란 데이터 간의 상관 방정식을 찾는 행위를 말한다.

     각 분야별로 다른 방식으로 불리지만 다 같다 : Regression(통계) == Data-fitting == Modeling(수학)

 

6.2 Input값(변수)의 종류가 많을 수록 좋지 않나요?

     : "아니요. 현실은 정반대입니다." 필요 없는 변수가 들어가면 모델링이 더 안좋아진다.

 

6.2 변수 선택법 : 상관관계가 높은 것을 선택한다

 

6.3 Linear vs Non-linear Regression

    - Linear : 1차 방정식, 선형 회귀

    - Non-linear : 2차 방정식, 비선형 회귀

 

6.4 Logistic Regression (분류문제) : 본 강의에서는 Pass

 

6.5 전통적인 Regression vs Machine Learning

   - 전통 : 최적의 Parameter를 찾는 것이 목적이며, LMS(최소제곱법)을 사용. 단 LSM의 모든 계산을 일일이 사람이 할 수 없어 근사치의 공식을 이용했었다

   - ML : 목적, 방법은 전통 회귀와 동일. 단 ML은 일일이 하나씩 컴퓨터가 계산하여 모델링을 한다

 

 

제 10~11강 예측 모델 만들기 실습

 

10.1 하기 링크 참조

colab.research.google.com/drive/1bbwyQkVxquxMXSCamV9XXWG1IB1Fzy3E#scrollTo=FkzCm4R6PfLl

 

[고객용]멀티캠_linear_regression.ipynb

Colaboratory notebook

colab.research.google.com

Comments ; ADsP 시험을 위해 상관분석(Pearson-r)과 Regression에 대해 추가로 Study!