ADsP 시험

[ADsP] 3장 1절 통계분석의 이해

푸른잎 뱅갈고무나무 2021. 4. 29. 15:25

[출처] : 2021 ADsP 데이터분석 전문가, 윤종식, DataEdu 출판사

녹색으로 표시된 부분은 블로그 작성자인 본인이 추가 또는 변경한 것이다.

 

2. 통계자료의 획득 방법

다. (확률)표본 추출 방법

출처 : https://m.blog.naver.com/PostView.nhn?blogId=deselorigin&logNo=220916376529&proxyReferer=https:%2F%2Fwww.google.com%2F

    1) 단순랜덤 추출법 (Simple Random Sampling)

    2) 계통추출법 (Systematic Sampling) : 단순램덤에서 변형된 방법으로 K개씩 (K=N/n)n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후 K개씩 띄어서 n개의 표본 선택. (이 방법이 왜 사용되는지 모르겠다...)

    3) 집락추출법(Cluster Random Sampling) : 군집별로 단순램덤 추출법

    4) 층화추출법 (Stratified Random Sampling) : 유사한 원소끼리 층으로 나눠 랜덤 추출하는 방법. 각 계층을 고루 대표할 수 있도록 도와준다

 

라. 측정

    2) 측정방법

        - 명목척도 : 어느 집단에 속하는지 분류 시 사용 (성별, 출생지 등) --> 질적척도(범주형자료)

        - 순서척도 : 측정대상의 서열관계 관측 (만족도, 선호도 등) --> 질척척도(범주형자료)

        - 구간척도 : 속성의 양을 측정하는 것으로 간격이 의미가 있는 자료(온도, 지수) --> 양적척도(수치형자료)

        - 비율척도 : 절대적 기준인 0이 존재하고 사칙연산이 가능(무게, 나이, 시간 등) --> 양적척도(수치형자료)

 

4. 확률 및 확률분포

나. 확률분포 (각 분포별 특징들만 간략하게 외울 것)

  1) 이산형 확률분포

      가) 베르누이 : 결과가 2개만 나오는 경우(동전 앞/뒤)

      나) 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률

      다) 기하분포 : 베리누이 시행에서 첫번째 성공할 때까지 x번 실패할 확률

      라) 다항분포 : 이항분포 확장. 세가지 이상 결과를 가지는 시행

      마) 포아송분포 : 단위시간 또는 단위 공간 내에서 발생하는 사건의 확률분포

 

   2) 연속형 확률분포

      가) 균일분포 : 계단형 그래프

      나) 정규분포 : 종모양. 평균이 0, 표준편차가 1인 정규분포를 표준정규분포라고 한다

      다) 지수분포 : 지수모양 그래프. 어떤 사건이 발생할 때까지 경과시간에 대한 확률분포

      라) t-분포 :  두집단의 평균이 동일한지 알고자할 때

          식과 예제 참고 : m.blog.naver.com/PostView.nhn?blogId=deselorigin&logNo=220916376529&proxyReferer=https:%2F%2Fwww.google.com%2F

      마) X2 분포(chi-square) : 두 집단 간의 동질성 검정에 활용되며, 모분산에 대한 가설 검정에 사용

      바) F-분포 : 두 집단 간 분산의 동일성 검정

 

5. 데이터분석 방법

    가) 통계분석 (4장) : 표본추출 --> 통계를 이용한 분석 --> 회귀를 이용한 예측 등

    나) 데이터 마이닝 (5장) : 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법

        * 두 분석의 차이 : 통계분석은 가설에 따른 분석이나 검증을 하지만 데이터 마이닝은 아니다

 

6. 비모수 검정

나. 비모수적 방법 :

    - 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시

    - 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우

    - 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용