[통계교육] 어서와 데이터는 처음이지 - 미래예측을 위한 기초 개념 정리

데이터 교육

[통계교육] 어서와 데이터는 처음이지 - 미래예측을 위한 기초 개념 정리

푸른잎 뱅갈고무나무 2021. 4. 29. 11:51

[어서와 데이터는 처음이지]시리즈에서 완전정복하자!
1. 어서와 데이터는 처음이지 - 기초 of 기초 데이터 개념
2. 어서와 데이터는 처음이지 - 효과 검증을 위한 기초 개념
3. 어서와 데이터는 처음이지 - 미래 예측을 위한 기초 개념

어서와 데이터는 처음이지 시리즈 중 마지막인 "미래 예측을 위한 기초 개념"를 수강하고 각 강의 내용을 Keyword 별로 정리한 내용이다. 일단 강의의 평은 강의 Concept과 잘 맞게 초보자도 문과생도 쉽게 이해할 수 있는 편안한 강의다. 직접 수학문제를 푸는 것이 아니라 기본 개념을 쉽게 그리고 머리 속으로 떠올리며 따라갈 수 있게 해준다.

제1강 상관분석

1.1 상관분석의 목적 : 여러 데이터 간의 관계성(유사도)를 구하기 위함

1.2 유사도를 정의하는 방법에는

1) 거리

2) 원점에서의 각도

3) 데이터의 변화 패턴(Pearson-r)을 구해보는 것이다

제2강 상관분석(pearson-r) 기초

2.1 r = (서로 같이 변화는 정도) / (서로 각기 변하는 정도) = 공분산 / 분산

= 시그마(xy) / sqrt(시그마(x^2) * 시그마(y^2))

2.2 시그마 (x^2) = 분산,

분자 = 공분산(공통분산)

제3~5강 상관분석 (pearson-r) - 데이터로 직접 확인 / 데이터의 관계성 / 상관값의 해석

3.1 두 데이터의 상관 관계 결과 값

r = 1 : 두 데이터가 선형관계에 있음. 기울기가 양수

r = 0 : 관계성이 없다

r = -1 : 두 데이터가 선형관계에 있음. 단 기울기가 음수.

3.2 r값은 두 데이터 간의 관계 증가성을 나타냄 (양수, 음수, 경향 등)

3.3 일반적으로 절대값 r이 0.7 이상일 때 상관관계가 높다고 한다

0.3이하는 상관관계가 없다

3.4 R^2(r의 제곱)으로 결정계수(설명력)을 사용한다.

ex) 0.7(r) ^2 = 0.49 (R^2) --> 50%의 설명력을 가진다

제6~9강 회귀(Regression)

6.1 회귀란 데이터 간의 상관 방정식을 찾는 행위를 말한다.

각 분야별로 다른 방식으로 불리지만 다 같다 : Regression(통계) == Data-fitting == Modeling(수학)

6.2 Input값(변수)의 종류가 많을 수록 좋지 않나요?

: "아니요. 현실은 정반대입니다." 필요 없는 변수가 들어가면 모델링이 더 안좋아진다.

6.2 변수 선택법 : 상관관계가 높은 것을 선택한다

6.3 Linear vs Non-linear Regression

- Linear : 1차 방정식, 선형 회귀

- Non-linear : 2차 방정식, 비선형 회귀

6.4 Logistic Regression (분류문제) : 본 강의에서는 Pass

6.5 전통적인 Regression vs Machine Learning

- 전통 : 최적의 Parameter를 찾는 것이 목적이며, LMS(최소제곱법)을 사용. 단 LSM의 모든 계산을 일일이 사람이 할 수 없어 근사치의 공식을 이용했었다

- ML : 목적, 방법은 전통 회귀와 동일. 단 ML은 일일이 하나씩 컴퓨터가 계산하여 모델링을 한다

제 10~11강 예측 모델 만들기 실습

10.1 하기 링크 참조

colab.research.google.com/drive/1bbwyQkVxquxMXSCamV9XXWG1IB1Fzy3E#scrollTo=FkzCm4R6PfLl

[고객용]멀티캠_linear_regression.ipynb

Colaboratory notebook

colab.research.google.com

Comments ; ADsP 시험을 위해 상관분석(Pearson-r)과 Regression에 대해 추가로 Study!

현재글[통계교육] 어서와 데이터는 처음이지 - 미래예측을 위한 기초 개념 정리

시계열자료, adsp,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

식물과 개발자

[통계교육] 어서와 데이터는 처음이지 - 미래예측을 위한 기초 개념 정리

'데이터 교육'의 다른글

티스토리툴바