[어서와 데이터는 처음이지]시리즈에서 완전정복하자!
1. 어서와 데이터는 처음이지 - 기초 of 기초 데이터 개념
2. 어서와 데이터는 처음이지 - 효과 검증을 위한 기초 개념
3. 어서와 데이터는 처음이지 - 미래 예측을 위한 기초 개념
어서와 데이터는 처음이지 시리즈 중 마지막인 "미래 예측을 위한 기초 개념"를 수강하고 각 강의 내용을 Keyword 별로 정리한 내용이다. 일단 강의의 평은 강의 Concept과 잘 맞게 초보자도 문과생도 쉽게 이해할 수 있는 편안한 강의다. 직접 수학문제를 푸는 것이 아니라 기본 개념을 쉽게 그리고 머리 속으로 떠올리며 따라갈 수 있게 해준다.
제1강 상관분석
1.1 상관분석의 목적 : 여러 데이터 간의 관계성(유사도)를 구하기 위함
1.2 유사도를 정의하는 방법에는
1) 거리
2) 원점에서의 각도
3) 데이터의 변화 패턴(Pearson-r)을 구해보는 것이다
제2강 상관분석(pearson-r) 기초
2.1 r = (서로 같이 변화는 정도) / (서로 각기 변하는 정도) = 공분산 / 분산
= 시그마(xy) / sqrt(시그마(x^2) * 시그마(y^2))
2.2 시그마 (x^2) = 분산,
분자 = 공분산(공통분산)
제3~5강 상관분석 (pearson-r) - 데이터로 직접 확인 / 데이터의 관계성 / 상관값의 해석
3.1 두 데이터의 상관 관계 결과 값
r = 1 : 두 데이터가 선형관계에 있음. 기울기가 양수
r = 0 : 관계성이 없다
r = -1 : 두 데이터가 선형관계에 있음. 단 기울기가 음수.
3.2 r값은 두 데이터 간의 관계 증가성을 나타냄 (양수, 음수, 경향 등)
3.3 일반적으로 절대값 r이 0.7 이상일 때 상관관계가 높다고 한다
0.3이하는 상관관계가 없다
3.4 R^2(r의 제곱)으로 결정계수(설명력)을 사용한다.
ex) 0.7(r) ^2 = 0.49 (R^2) --> 50%의 설명력을 가진다
제6~9강 회귀(Regression)
6.1 회귀란 데이터 간의 상관 방정식을 찾는 행위를 말한다.
각 분야별로 다른 방식으로 불리지만 다 같다 : Regression(통계) == Data-fitting == Modeling(수학)
6.2 Input값(변수)의 종류가 많을 수록 좋지 않나요?
: "아니요. 현실은 정반대입니다." 필요 없는 변수가 들어가면 모델링이 더 안좋아진다.
6.2 변수 선택법 : 상관관계가 높은 것을 선택한다
6.3 Linear vs Non-linear Regression
- Linear : 1차 방정식, 선형 회귀
- Non-linear : 2차 방정식, 비선형 회귀
6.4 Logistic Regression (분류문제) : 본 강의에서는 Pass
6.5 전통적인 Regression vs Machine Learning
- 전통 : 최적의 Parameter를 찾는 것이 목적이며, LMS(최소제곱법)을 사용. 단 LSM의 모든 계산을 일일이 사람이 할 수 없어 근사치의 공식을 이용했었다
- ML : 목적, 방법은 전통 회귀와 동일. 단 ML은 일일이 하나씩 컴퓨터가 계산하여 모델링을 한다
제 10~11강 예측 모델 만들기 실습
10.1 하기 링크 참조
colab.research.google.com/drive/1bbwyQkVxquxMXSCamV9XXWG1IB1Fzy3E#scrollTo=FkzCm4R6PfLl
Comments ; ADsP 시험을 위해 상관분석(Pearson-r)과 Regression에 대해 추가로 Study!