[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사
녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다.
2. 통계자료의 획득 방법
다. (확률)표본 추출 방법
1) 단순랜덤 추출법 (Simple Random Sampling)
2) 계통추출법 (Systematic Sampling) : 단순램덤에서 변형된 방법으로 K개씩 (K=N/n)n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후 K개씩 띄어서 n개의 표본 선택. (이 방법이 왜 사용되는지 모르겠다...)
3) 집락추출법(Cluster Random Sampling) : 군집별로 단순램덤 추출법
4) 층화추출법 (Stratified Random Sampling) : 유사한 원소끼리 층으로 나눠 랜덤 추출하는 방법. 각 계층을 고루 대표할 수 있도록 도와준다
라. 측정
2) 측정방법
- 명목척도 : 어느 집단에 속하는지 분류 시 사용 (성별, 출생지 등) --> 질적척도(범주형자료)
- 순서척도 : 측정대상의 서열관계 관측 (만족도, 선호도 등) --> 질척척도(범주형자료)
- 구간척도 : 속성의 양을 측정하는 것으로 간격이 의미가 있는 자료(온도, 지수) --> 양적척도(수치형자료)
- 비율척도 : 절대적 기준인 0이 존재하고 사칙연산이 가능(무게, 나이, 시간 등) --> 양적척도(수치형자료)
4. 확률 및 확률분포
나. 확률분포 (각 분포별 특징들만 간략하게 외울 것)
1) 이산형 확률분포
가) 베르누이 : 결과가 2개만 나오는 경우(동전 앞/뒤)
나) 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
다) 기하분포 : 베리누이 시행에서 첫번째 성공할 때까지 x번 실패할 확률
라) 다항분포 : 이항분포 확장. 세가지 이상 결과를 가지는 시행
마) 포아송분포 : 단위시간 또는 단위 공간 내에서 발생하는 사건의 확률분포
2) 연속형 확률분포
가) 균일분포 : 계단형 그래프
나) 정규분포 : 종모양. 평균이 0, 표준편차가 1인 정규분포를 표준정규분포라고 한다
다) 지수분포 : 지수모양 그래프. 어떤 사건이 발생할 때까지 경과시간에 대한 확률분포
라) t-분포 : 두집단의 평균이 동일한지 알고자할 때
마) X2 분포(chi-square) : 두 집단 간의 동질성 검정에 활용되며, 모분산에 대한 가설 검정에 사용
바) F-분포 : 두 집단 간 분산의 동일성 검정
5. 데이터분석 방법
가) 통계분석 (4장) : 표본추출 --> 통계를 이용한 분석 --> 회귀를 이용한 예측 등
나) 데이터 마이닝 (5장) : 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법
* 두 분석의 차이 : 통계분석은 가설에 따른 분석이나 검증을 하지만 데이터 마이닝은 아니다
6. 비모수 검정
나. 비모수적 방법 :
- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시
- 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우
- 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용
'ADsP 시험' 카테고리의 다른 글
ADsP 시험[ADsP] 5장 데이터 마이닝 - 3절 앙상블 분 (0) | 2021.05.11 |
---|---|
[ADsP] 5장 데이터 마이닝 - 2절 분류분석 (0) | 2021.05.11 |
[ADsP] 5장 데이터 마이닝 - 1절 데이터마이닝의 개요 (0) | 2021.05.07 |
[ADsP] 4장 4절 시계열자료 (0) | 2021.05.03 |
[ADsP] 4장 3절 회귀분석 (0) | 2021.04.29 |