분류 전체보기 22

ADsP 시험[ADsP] 5장 데이터 마이닝 - 3절 앙상블 분

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사 녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다. 1. 앙상블(Ensemble) 가. 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법 다. 앙상블 기법의 종류 (m.blog.naver.com/jinty/221720587524) 1) 배깅(Bagging) - bootstrap(붓스트랩, 동일한 크기의 랜덤 샘플링 자료)를 생성 -> 다수의 모델링 생성 -> Voting(보팅)을 통해 다수결로 최종 결과 선정 2) 부스팅(Boosting) - 학습데이터 -> 분류기 1st -> Weight -> 분류기 2nd -> Weight ..... -> 분..

ADsP 시험 2021.05.11

[ADsP] 5장 데이터 마이닝 - 2절 분류분석

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사 녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다. 1. 분류분석 가. 분류분석(Classification)의 정의 - 데이터가 어떤 그룹에 속하는지 예측하는 기법 - 군집화(Clustering)과 유사하지만, 분류분석은 각 그룹이 정의되어 있다. - 교사학습(Supervised Learning)에 해당 바. 분류기법 - Logistic Regression (로지스틱 회귀분석) - Decision Tree (의사결정 나무) - Bayesian Classification (베이지안 분류) - ANN (Artificial Neural Network) 2. Logistic Regression (로지스틱 회귀분..

ADsP 시험 2021.05.11

[ADsP] 5장 데이터 마이닝 - 1절 데이터마이닝의 개요

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사 녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다. 1. 데이터 마이닝 가. 개요 : 데이터 마이닝이란 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 일컫는다 나. 통계분석과의 차이 : 통계는 가설이나 가정에 따른 분석이나 검증을 실시한다. 다. 종류 - 방법론에 따른 종류 : 인공지능, 의사결정나무, K-평균군집화, 연관분석, 회귀분석, 로짓분석(Logit), 최근접이웃 * Supervised Data Prediction : 의사결정나무, 인공신경망(ANN..

ADsP 시험 2021.05.07

[ADsP] 4장 4절 시계열자료

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사 녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다. 첨부 2017-1 수업파일.pdf 참조 (구글링한 파일) 4절 시계열 분석 1. 시계열 자료 가. 개요 - 시간의 흐름에 따라 관찰된 값 나. 종류 - 비정상성 / 정상성 시계열 자료 (약한의미의 정상성 : 평균과 분산이 시간과 관계없이 일정) - 연속시계열 / 이산시계열 2. 시계열자료 분석방법 나. 자료형태에 따른 분석방법 1) 일변량 시계열 분석 - 하나의 변수에 관심을 갖는 경우의 시계열 분석 - Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법 등 사용 2) 다중 시계열분석 - 여러개의 변수들을 활용하는 시계열 분석 - 계량경제 모..

ADsP 시험 2021.05.03

[ADsP] 3장 1절 통계분석의 이해

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사 녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다. 2. 통계자료의 획득 방법 다. (확률)표본 추출 방법 1) 단순랜덤 추출법 (Simple Random Sampling) 2) 계통추출법 (Systematic Sampling) : 단순램덤에서 변형된 방법으로 K개씩 (K=N/n)n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후 K개씩 띄어서 n개의 표본 선택. (이 방법이 왜 사용되는지 모르겠다...) 3) 집락추출법(Cluster Random Sampling) : 군집별로 단순램덤 추출법 4) 층화추출법 (Stratified Random Sampling) : 유사한 원소끼리 층으로 나눠 랜..

ADsP 시험 2021.04.29

[ADsP] 4장 3절 회귀분석

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사 녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다. 1. 회귀분석의 개요 다. (선형)회귀분석의 가정. 잘 정리된 자료 링크 (specialscene.tistory.com/89) 1) 선형성 : 선형 회귀분석이니까...당연히 중요하다. 2) 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다. 반대되는 개념은 이분산성. 3) 독립성 : 오차와 입력변수는 관련이 없다. 독립변수간 오차는 관련이 없다. 4) 비상관성 : 오차들끼리 상관이 없다 5) 정상성(정규성) : 오차의 분포가 정규분포를 따른다. Q-Q Plot 등을 활용하여 확인 2. 단순선형회귀 분석 다. 회귀분석의 검정 1) Multiple /..

ADsP 시험 2021.04.29

[통계교육] 어서와 데이터는 처음이지 - 미래예측을 위한 기초 개념 정리

[어서와 데이터는 처음이지]시리즈에서 완전정복하자! 1. 어서와 데이터는 처음이지 - 기초 of 기초 데이터 개념 2. 어서와 데이터는 처음이지 - 효과 검증을 위한 기초 개념 3. 어서와 데이터는 처음이지 - 미래 예측을 위한 기초 개념 어서와 데이터는 처음이지 시리즈 중 마지막인 "미래 예측을 위한 기초 개념"를 수강하고 각 강의 내용을 Keyword 별로 정리한 내용이다. 일단 강의의 평은 강의 Concept과 잘 맞게 초보자도 문과생도 쉽게 이해할 수 있는 편안한 강의다. 직접 수학문제를 푸는 것이 아니라 기본 개념을 쉽게 그리고 머리 속으로 떠올리며 따라갈 수 있게 해준다. 제1강 상관분석 1.1 상관분석의 목적 : 여러 데이터 간의 관계성(유사도)를 구하기 위함 1.2 유사도를 정의하는 방법에..

데이터 교육 2021.04.29

카카오 2020인턴십 문제3번 -

programmers.co.kr/learn/courses/30/lessons/67258 코딩테스트 연습 - 보석 쇼핑 ["DIA", "RUBY", "RUBY", "DIA", "DIA", "EMERALD", "SAPPHIRE", "DIA"] [3, 7] programmers.co.kr # 문제풀이 아이디어 # 투포인터 문제 // set to list를 이용한 중복값 제거 # 1. Input T에서 set함수를 이용해 배열에 몇개의 값이 있는지 확인 # 2. 0,0부터 시작. 왼쪽 포인터를 start / 오른쪽 포인터를 end로 지정 # 3(x). len(set(T)) == len(set(T[start:end]))이면 조건 만족 --> start, end 기록 # --> start += 1 # 3. 위에서 ..

카테고리 없음 2021.04.27

[카카오코딩테스트] 2020 Internship 문제 2번

문제 출처: tech.kakao.com/2020/07/01/2020-internship-test/ 2020 카카오 인턴십 for Tech developers 문제해설 2020년 카카오의 여름 인턴십이 시작 되었습니다.여름 인턴십의 첫번째 관문인 코딩 테스트가 2020년 5월 9일 오후 2시부터 6시까지 진행되었는데요, 온라인으로 진행되었기 때문에 코로나19로부터 tech.kakao.com #문제 풀이 아이디어 # 1. 정규식을 이용하여 숫자와 연산자를 나누어 리스트에 저장 # 2. 사칙연산 우선순위의 경우의 수만큼 연산후 비교 크기 비교 #수 나누기 함수 : 사친역산을 순서대로 리스트에 저장 import re from itertools import permutations def sep_nos(A): ex..

카테고리 없음 2021.04.20