본문 바로가기

데이터 사이언스

확률 변수와 확률 분포

반응형

확률 변수와 확률 분포

확률 변수와 확률 분포는 불확실한 사건과 그 결과를 설명하고 이해하는 데 도움이 되는 확률 이론과 통계의 기본 개념입니다.

 

1. 확률 변수 (Random Variables)와 확률 분포(Probability Distribution)

확률 변수는 무작위 실험이나 과정의 결과에 따라 값이 결정되는 수량을 수학적으로 표현한 것입니다. 이는 우연에 의해 다른 값을 가질 수 있는 변수이며, 확률을 갖는 무작위 실험이나 현상을 수(정수 또는 실수)에 대응시킵니다. 


예를 들어, 주사위를 굴려서 나오는 결과를 나타내기 위해 확률 변수를 사용할 수 있습니다.

확률 변수를 "X"라고 할 때, 다음과 같이 표현할 수 있습니다.
1이 나오면 X = 1

2가 나오면 X = 2

3이 나오면 X = 3
...
6이 나오면 X = 6

 

이 확률 변수 X에 대한 확률 분포를 살펴보겠습니다. 주사위는 각 면의 확률이 동일하므로, 확률 변수 X에 대한 확률은 다음과 같이 나타낼 수 있습니다.

P(X = 1) = 1/6
P(X = 2) = 1/6

P(X = 3) = 1/6
...

P(X = 6) = 1/6

 

2. 이산 확률 변수와 연속 확률 변수

이산 확률 변수 (Discrete Random Varialbe)

이산 확률 변수는 셀 수 있는 고유한 값의 집합을 가지며, 각 값 사이에 간격이 있어 구분이 가능한 변수입니다.

예를 들어, 세 개의 동전을 던져서 앞면이 나오는 갯수를 확률 변수 "X"로 정의할 수 있습니다. X의 가능한 값은 0, 1, 2, 또는 3이며, 이들 값은 서로 다른 결과를 나타냅니다. 즉, 1.5 같은 소수점이 나올 수 없습니다. 

 

연속 확률 변수 (Continuous Randeom Varialbe)

연속 확률 변수는 어떤 범위 내에서 어떤 값이라도 가질 수 있는 변수입니다. 이산 확률 변수와는 달리 간격이 없으며, 값을 무한히 작은 부분으로 나눌 수 있습니다. 연속 확률 변수는 주로 광범위한 값을 가지는 측정값을 표현할 때 사용됩니다.

예를 들어, 성인 개인의 키를 나타내는 확률 변수 "Y"를 정의한다고 할 때, Y는 특정 범위 내에서 지속적으로 변할 수 있으며, 점점 더 정밀하게 측정할 수 있습니다. 성인의 키는 171cm, 171.2cm, 171.25cm와 같이 다양한 값이 될 수 있습니다.

연속 확률 변수는 이산 확률 변수와는 달리 확률을 나열하는 대신 확률 밀도 함수(PDF: Probability Density Function)를 사용하여 특정 범위 내에 있는 값의 확률을 나타냅니다.

 

3. 확률 변수의 평균

확률 변수의 평균은 기대값이라고도 하며, 많은 시행이나 사례에 대해 예상되는 평균값을 나타냅니다.
이산 확률 변수 X의 평균은 X의 각 값에 해당하는 확률을 곱한 후 모두 더하여 계산합니다.

 

E[X] = ΣX  P(X)

 

4. 확률 변수의 분산과 표준편차

확률 변수의 분산은 확률 변수의 값이 평균값을 중심으로 얼마나 분산되어 있는지를 나타내는 척도입니다. 

분산은 각 값과 평균 값 사이의 차이를 제곱한 값들의 평균으로 계산됩니다. 분산의 단위는 원본 데이터의 제곱 단위입니다.

분산이 낮으면 값들이 평균값 주변에 모여 있음을 나타내며, 분산이 높으면 값들이 평균값에서 더 멀리 흩어져 있음을 나타냅니다.

Var(X) = Σ ( (x - μ)^2 * P(X) )

 

표준 편차는 분산의 제곱근으로, 원본 데이터와 동일한 단위를 가지기 때문에 더 직관적이고 해석하기 쉽습니다.

 

σ = √Var(X)

 

분산과 표준 편차는 데이터의 분산이나 확산을 이해하는 데 매우 중요한 개념이며, 통계에서 불확실성과 변동성을 정량화하는 데에 널리 사용됩니다.

반응형