10. 통계학, 기본개념


통계학에서 필수적인 개념들을 중심으로 살펴보도록 한다.

 

개념 정의

  • 통계학 (Statistics)
    • 데이터의 수집, 구성, 분석, 해석, 표현에 관한 학문
    • 기술통계학(Descriptive Statistics) -> 수집된 데이터를 잘 설명하는 것
    • 추측통계학(Inferential Statistics) -> 데이터를 바탕으로 추론

\(\Rightarrow\) 데이터를 수집하여 표현하고, 분석하여 미래를 예측하는 학문

 

  • 모집단(Population)
    어떤 질문이나 실험을 위해 관심의 대상이 되는 개체나 사건의 집합
    Ex) 전교 남학생의 키
  • 모수(Parameter)
    모집단의 수치적인 특성
    Ex) 키의 평균
  • 표본(Sample)
    모집단에서 선택된 일부 개체나 사건의 집합

 

 

도수(Frequency)

어떤 사건이 실험이나 관찰로부터 발생한 횟수 (= 빈도)

  • 표현방법
    • 도수분포표(Frequency Distribution Table)
    • 막대그래프(Bar Graph) \( \rightarrow \) 질적 자료 표현
    • 히스토그램(Histogram) \( \rightarrow\) 양적 자료 표현

 

막대그래프는 사이 간격이 떨어져있고 순서가 상관없지만,


히스토그램은 비어있는 간격이 없고 순서가 중요하다

 

 

 

줄기-잎 그림(Stem and Leaf Diagram)

 

양적 데이터를 줄기와 잎으로 구분

데이터를 보기 쉽게 해주고 특정 구간의 부포를 파악하기 용이하다.

 

 

 

상대도수

 

도수를 전체 원소의 수로 나눈 것

확률을 계산하는데 중요한 개념이므로 꼭 이해를 하고 있어야 함

 

Scipy : 어떤 데이터를 수집하고, 모집단의 수치적인 특성을 파악하기 위해 이용할 파이썬 모듈

 

 

 

평균

statistics 모듈 : mean, median 등의 함수가 들어있는 파이썬 모듈 (추가적인 설치 필요없음)

 

평균은 두 가지 종류로 나누어진다.

  • 모평균 \(\mu\)
    모집단 전체 자료일 경우
  • 표본 평균 \(\bar{x}\)
    모집단에서 추출한 표본일 경우

 

평균의 경우 극단 값의 영향을 많이 받기 때문에 (\([1, 2, 3, 100])\)


이럴 경우, 중앙값을 이용하는 것이 좋다.

 

 

 

중앙값(Median)

자료를 순서대로 나열했을 때 가운데 있는 값

 

 

 

분산(Variance)

편차의 제곱의 합을 자료의 수로 나눈 값
편차 : 값과 평균의 차이

  • 자료가 모집단일 경우 : 모분산

  • 자료가 표본일 경우 : 표본분산

표본분산은 n-1로 나눈다.

 

평균을 기준으로 많이 떨어져 있으면 분산값이 크게 나온다.


따라서 값들이 평균을 중심으로 많이 퍼져있는지 적게 퍼져있는지 파악할 수 있다.

 

 

위의 사진에서 \(b\)의 경우 \(a\)에 비해 굉장히 큰 값이 나온 것을 확인할 수 있는데


\(b\)에 존재하는 이상점(평균과 거리가 먼 값)으로 인해 편차가 크게 나온 것이다.

 

 

 

 

표준편차(Standard Deviation)

 

분산의 양의 제곱근

  • 모표준편차(Population Standard Deviation)

  • 표본표준편차(Sample Standard Deviation)

 

 

statistics : 모듈에서는 다음의 함수를 이용한다.

  • 표준편차 : stdev()
  • 모분산 : pvariance()
  • 모표준편차 : pstdev()

 

 

numpy 모듈에서는 다음의 함수를 이용한다.

  • 모분산 : var()
  • 모표준편차 : std()

 

 

ddof 인자를 1로 하면 표본분산과 표본표준편차를 구할 수 있다.

  • 표본분산 : var(a, ddof=1)
  • 표본표준편차 : std(a, ddof=1)

 

 

 

범위(Range)

 

자료를 정렬하였을 때 가장 큰 값과 가장 작은 값의 차이

 

파이썬 기본 내장 함수인 max(), min() 을 사용해도 되고,


numpy 모듈의 max(), min() 을 사용해도 된다.

 

극단적인 값이 발생하면 엄청나게 차이가 나는 경우가 있는데, 그럴 때 값을 비슷하게 조절할 때 사용이 되는 개념이다.

 

 

 

 

사분위수(Quartile)

 

전체 자료를 정렬했을 때 1/4, 1/2, 3/4 위치에 있는 숫자

  • Q1 : 제 1사분위수
  • Q3 : 제 3사분위수

 


numpy 모듈의 quantile() 을 이용한다. (quantile : 백분위수, quartile : 사분위수)

  • 두번째 인자로 0 ~ 1 사이의 값을 입력해주고, 입력한 값의 부분에 해당하는 값이 어떤 값인지 찾아준다.

자료들이 어떤 범위에 존재한는지 확인할 수 있다.

 

 


범위(Range) 보다 대략적인 데이터의 모양을 파악하는데 용이하다.

  • 사분위범위(IQR; Interquartile Range) : Q3 - Q1

 

 

이상적인 값이 있더라고 대략적인 값을 보다 잘 걸러낼 수 있다.

 

 

 

 

Z-Score

 

어떤 값이 평균으로부터 몇 표준편차 떨어져 있는지를 의미하는 값

  • 모집단의 경우
    값에서 평균을 뺀 후에 모표준편차나 표준편차를 나눠준다.

  • 표본의 경우
    값에서 표본평균을 뺀 후에 표본표준편차로 나눠준다.

 

 

scripy 모듈의 stats.zscore()를 이용한다.

 

ddof 인자를 1로 넣어주면 표본표준편차에 대한 Z-Score 값을 반환한다.