13. 확률분포


확률변수(Random Variable)

 

랜덤한 실험 결과에 의존하는 실수
즉, 표번 공가의 부분집합에 의존하는 실수

 

보통 표본공간에서 실수로 대응되는 함수로 정의
보통 \(X\) 나 \(Y\) 같은 대문자로 표시

 

 

이산확률변수 (Discrete Random Variable)
확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 있는 경우
Ex) 주사위, 동전과 관련된 위의 예

 

 

연속확률변수 (Continuous Random Variable)
셀 수 없는 경우
Ex) 어느 학교에서 랜덤하게 선택된 남학생의 키 \(\rightarrow\) (무수히 많으면서 셀 수 없음)

 


# 예시 1. 주사위 2개를 던지는 실험

  • 주사위 숫자의 합 \(\rightarrow \) 하나의 확률 변수
  • 주사위 숫자의 차 \(\rightarrow \) 하나의 확률 변수
  • 두 주사위 숫자 중 같거나 큰 수 \(\rightarrow \) 하나의 확률 변수

 

# 예시 2. 동전 10개를 던지는 실험

  • 동전의 앞면의 수 \(\rightarrow \) 하나의 확률 변수
  • 첫 번째 앞면이 나올 때까지 던진 횟수 \(\rightarrow \) 하나의 확률 변수

 

 

 

확률분포(Probability Distribution)

 

확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계


어떤 확률 변수 \(X\)가 가질 수 있는 값 : \(0, 1, 3, 8 \)
각 값이 나올 확률은?

  • \(P(X = 0) = 0.2 \)
  • \(P(X = 1) = 0.1 \)
  • \(P(X = 2) = 0.5 \)
  • \(P(X = 3) = 0.2 \)

 

확률분포의 표현은 매우 다양힘

  • 그래프
  • 함수
  • \(\dots\)

 

 


# 예시. 주사위 2개를 던지는 실험

확률 변수 \(X\) : 주사위 숫자의 합

  • \(X\) 가 가질 수 있는 값 \(\rightarrow\) 2, 3, \(\dots\), 12
  • \(P(X = 12) = \frac{1}{36} \)

 

확률 변수 \(Y\) : 주사위 숫자의 차

  • \(Y\) 가 가질 수 있는 값 \(\rightarrow\) 0, 1, 2, \(\dots\), 5
  • \(P(Y = 5) = \frac{2}{36} = \frac{2}{18} \)

 

정리)

  • 확률 변수 \(X\) : 주사위 숫자의 합
  • 주사위를 던질 때마다 \(X\) 의 값이 달라질 수 있음
  • \(n\)번 실험하면, \(n\)개의 숫자가 나옴
  • 이 \(n\)개의 숫자의 평균과 분산을 계산할 수 있음

 

확률 변수 \(X\)도 평균과 분산을 가짐

  • 이 평균과 분산을 모집단의 평균과 분산이라고 할 수 있음

 

 

 


이산확률변수

 

이산확률변수의 확률분포

  • 보통 함수로 주어짐
  • 확률변수 \(X\) 가 \(x\) 라는 값을 가질 확률
    • \(P(X = x) = f(x) \)
    • 확률질량함수

 


# 예시.

  • 확률변수 \(X\) 가 가질 수 있는 값 : \(0, 2, 5\)

 

 

이산확률변수의 평균

  • 기댓값(Expected Value) 라고도 함

 

 

 

예를 들어 100,000 번의 실험을 했다면

  • 0 이 대략적으로 10,000 번 나옴
  • 2 가 대략적으로 30,000 번 나옴
  • 5 가 대략적으로 60,000 번 나옴
  • 따라서 평균은

 

 

 

 

이산확률변수의 분산

 

실험을 할 때마다 확률변수의 값이 달라질 수 있음


따라서 그 변동의 정도인 분산을 계산할 수 있음

 

예를 들어 100,000번의 실험을 했다면

  • 평균 : 3.6
  • \((0 - 3.6)^2 \) 이 대략적으로 10,000 번 나옴
  • \((2 - 3.6)^2 \) 이 대략적으로 30,000 번 나옴
  • \((5 - 3.6)^2 \) 이 대략적으로 60,000 번 나옴

 

 

 

이산확률변수의 표준편차

 

 


# 예제.

확률변수 \(X\)의 확률분포

확률변수 \(X\)의 평균, 분산, 표준편차?

 

 

 

 

 

 

 

결합확률 분포 (Joint Probability Distribution)

 

두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계

  • 확률변수 \(X\)
    한 학생이 가지는 휴대폰의 수
  • 확률변수 \(Y\)
    한 학생이 가지는 노트북의 수

 

 

 

결합확률분포를 통해 각 확률변수의 확률분포를 도출 할 수 있음

  • 주변확률분포 (Marginal Probability Distribution)

 

 

 

공분산(Covariance)

 

# 예시.

고등학교 1학년 학생들

  • 확률변수 \(X\) : 키
  • 확률변수 \(Y\) : 몸무게
  • 확률변수 \(Z\) : 수학성적
  • \((X - {\Large\mu}_x)(Y - {\Large\mu}_y) \) : 양일 가능성 높음
  • \((X - {\Large\mu}_x)(Z - {\Large\mu}_z) \) : 양과 음이 될 가능성이 반반
  • \((X - {\Large\mu}_x)(Y - {\Large\mu}_y) \) 와 \((X - {\Large\mu}_x)(Z - {\Large\mu}_z) \)
    • 각각 확률변수
    • 따라서 평균과 분산을 구할 수 있음

 

 

확률변수 \(X\) 와 \(Y\) 의 공분산

  • \((X - {\Large\mu}_x)(Y - {\Large\mu}_y) \) 의 평균

 

 

 

공분산을 구하는 이유?
\(\Rightarrow \) 확률변수 \(X\) 와 \(Y\)의 관계를 알 수 있다.

  • 0에 가까운 결과가 나오면 연관이 없다고 할 수 있고,
  • 숫자가 클 수록 연관이 깊어진다.

  • \(X\) 가 크면 \(Y\)도 조금 클 가능성이 높다.
  • 공분산은 각 확률변수의 절대적인 크기에 영향을 받음
    • 만약 \(X\)의 값이 0, 100, 200 이고, \(Y\)의 값이 0, 1, 2 이면 공분산이 크게 달라진다.

 

 

 

상관계수(Correlation Coefficient)

공분산은 각 확률변수의 절대적인 크기에 영향을 받음

  • 단위에 의한 영향을 없앨 필요

 

 

 

 


네 가지 확률분포

 

중요한 확률분포 네 가지

  • 이항분포
  • 정규분포
  • 포아송분포
  • 지수분포

 

 

 

이항분포 (Binomial Distribution)

 

이항확률변수의 확률분포

 

베르누이 시행 (Bernoulli trial)

  • 정확하게 2개의 결과만을 가지는 실험
    • Ex) 동전 던지기
  • 보통 성공과 실패로 결과를 구분
  • 성공의 확률 : \(P\)

 

확률변수 \(X\)

  • n번의 베르누이 시행에서 성공의 횟수
  • 이항확률변수라고 함

 

 

 


# 예시.

어떤 랜덤박스의 뽑기 성공 확률이 0.2 이다.
3 개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률은?

 

 

 

 

 

 

정규분포

 

연속확률 변수의 확률 분포

  • 확률밀도함수 (Probability Density Function)
    • \(f(x)\)
      주의! \(x\) 일 확률을 제공하는 것이 아님

  • 즉 그래프 아래 부분의 넓이가 확률이 됨
  • 한 점의 확률은 0 이 된다.

 

 

 

  • \(\mu\)가 있는 곳이 값이 제일 크다.
    • 지수에 마이너스가 있기 때문에 지수의 괄호 안의 값이 커질수록 \(e\)의 값이 커지기 때문
  • \(\sigma\)가 커질수록 양쪽으로 퍼져있는 그래프가 그려진다.
  • 어떤 \(x\)에 대해서 \(f(x)\) 값이 큰 곳에 많은 \(x\)가 밀집되어 있고, \(f(x)\) 값이 작은 곳에 대해서는 \(x\)가 적다.
  • 과거에 많은 데이터를 가지고 분포를 그려봤는데 대부분의 정규분포의 밀도함수 그래프처럼 그려졌다.

 

 

 

 

표준정규확률변수 (Standard Normal Random Variable)

 

 

 

표준정규분포 (Standard Normal Distribution)

 

 

만약 \(z\)가 0일 경ㅇ는 정확히 반쪽 이하의 영역이므로 확률은 0.5이다.

 

 

\(P[Z \le z] \) 에서 표준정규확률변수 \(Z\) 가 \(z\) 보다 작거나 같을 확률이 표로 제공이 된다.

  • 행 : 소수점 첫째자리
  • 열 : 소수점 둘째자리

Ex) 표준정규확률변수 \(Z\) 가 0.37 보다 작을 확률은 0.64431 이다.

 

 

 

 


# 예시 1.

 

 

# 예시 2.

 

 

# 예시 3.

어떤 종목의 주가는 전날 종가를 평균으로 하고, 표준편차가 50인 정규분포를 따른다고 한다.
오늘 종가가 1,000원일 때, 내일 주가가 1,100원이상이 될 확률은?

 

 

 

 

 

포아송 분포 (Poission Distribution)

 

일정한 시간단위 또는 공간 단위에서 발생하는 이벤트의 수의 확률분포

  • 하루 동안 어떤 웹사이트를 방문하는 방문자의 수
  • 어떤 미용실에 한 시간동안 방문하는 손님의 수
  • 어떤 전기선 100미터당 발생하는 결함의 수

 

 

확률분포함수 (확률질량함수)

 

 


# 예시.

어느 웹사이트에 시간당 접속자 수는 평균이 \( (\lambda = 3)\)인 포아송 분포를 따른다.
앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?


\(P[X \le 2] \) = ?

 

 

 

 

지수분포 (Exponential Distribution)

 

포아송 분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터

이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포

 

 


# 예제.

어느 웹사이트에 시간당 접속자 수는 \(\lambda = 3 \) 인 포아송 분포를 따른다고 한다.
지금부터 시작하여 첫번째 접속자가 30분 이내에 올 확률은?


\(P[T \le 0.5]\) = ?