[기초 수학과 통계] 평균, 중앙값, 표준편차, 히스토그램

이번 포스트에서는

평균, 중앙값, 표준편차와 같은 통계량을 이해하고 히스토그램까지 다뤄보겠습니다.

 

평균과 중앙값


평균(Mean)

- 데이터의 모든 값을 합산한 후, 데이터 항목의 개수로 나눈 값

- 데이터셋의 '중심'을 나타내는 가장 일반적인 척도 중 하나

 

평균은 우리가 일상생활에서 가장 흔하게 접하는 통계량입니다.

예를 들어 한 학급 학생들의 시험 점수 평균을 계산할 때 모든 학생의 점수를 더한 다음 학생 수로 나누는 것이

바로 평균 입니다.

이는 데이터가 어디쯤에 몰려있는지 대략적으로 알려주는 값으로, 데이터의 전체적인 경향을 파악하는데 유용합니다.

 

평균은

- 모든 데이터 값을 계산에 사용합니다.

- 이상치(극단적인 값)에 매우 민감하게 반응하여 평균이 왜곡될 수 있습니다.

- 대칭적인 분포를 가진 데이터에 적합합니다.

- NumPy 의 mean() 함수를 사용하여 계산할 수 있습니다.

 

 

중앙값 (Median)

- 데이터를 오름차순 또는 내림차순으로 정렬했을 때 가장 중앙에 위치하는 값

- 데이터셋의 정확한 중간점을 나타냄

 

데이터셋을 두 개의 동일한 크기의 부분으로 나누는 값입니다. 

예를 들어 시험 점수가 낮은 학생부터 높은 학생까지 줄을 세웠을 때, 정확히 중간에 서 있는 학생의 점수가

중앙값이 됩니다. 데이터에 극단적인 값이 있을 때 평균보다 데이터의 중심을 더 잘 나타낼 수 있습니다.

실생활에서 더 예를 들어볼 때 부동산 가격이나 소득 수준과 같은 데이터를 분석할 때 중앙값이 유용하게 사용됩니다.

몇몇 고가의 부동산이나 고소득자가 전체 평균을 끌어올릴 수 있기 때문에

중앙값을 통해 일반적인 수준을 파악하는 것이 더 정확할 수 있습니다.

 

중앙값은

- 데이터의 정렬 순서에 따라 결정됩니다.

- 이상치(극단적인 값)에 크게 영향을 받지 않습니다.

- 데이터 분포가 비대칭적일 때 유용합니다.

- NumPy의 median() 함수를 사용하여 계산할 수 있습니다.

 

* 평균과 중앙값은 혼동될 수 있습니다.

평균은 모든 값의 합을 개수로 나눈 것이고,

중앙값은 정렬된 데이터의 물리적인 중간 위치 값입니다.

소득 분포와 같이 비대칭적인 데이터에서는 중앙값이 평균보다 더 현실적인 '중심'을 나타내는 경우가 많습니다.

 

표준 편차 (Standard Devation)


표준편차는

데이터들이 평균 주변에 얼마나 모여있는지, 즉 데이터의 분포가 얼마나 넓은지를 나타내는 척도 입니다.

데이터의 '변동성'또는 '산포도'를 측정할 수 있습니다.

 

표준편차가 작으면 데이터가 평균 근처에 밀집해 있다(데이터의 일관성이 높음)는 뜻이고,

표준편차가 크면 데이터가 평균으로부터 넓게 퍼져 있다(데이터의 변동성이 큼)는 뜻입니다.

예를 들어

두 반의 시험 평균 점수는 같지만

한 반은 점수 편차가 작고 다른 반은 점수 편차가 크다면 표준편차를 통해 그 차이를 알 수 있습니다.

 

표준편차는

- 데이터의 산포도를 나타내는 가장 일반적인 척도입니다.

- 분산의 양의 제곱근으로 계산됩니다. (분산: 제곱된 편차들의 평균/ 편차: 각 데이터 포인트에서 평균을 뺀 값)

- 단위가 원래 데이터와 동일하여 직관적인 이해를 돕습니다.

- 이상치에 민감합니다.

 

표준편차를 알면 데이터의 안전성을 파악하고 얼마나 신뢰 가능한지, 얼마나 예측 가능한지 더 정확하게 이해할 수 있습니다.

 

히스토그램 (Histogram)


히스토그램은 

데이터의 분포를 시각적으로 보여주는 그래프입니다.

데이터를 여러 구간(bin)으로 나누고, 각 구간에 속하는 데이터의 개수(빈도)를 막대 그래프 형태로 나타냅니다.

 

예를 들어 

한 학급 학생들의 키 분포를 알고 싶다면, 키를 몇개의 구간(예: 150-155cm, 155-160cm ... )등으로 나누고

각 구간에 해당하는 학생 수를 세어 막대 그래프로 그릴 수 있습니다.

이 그래프를 통해 키가 어느 구간에 가장 많이 분포되어 있는지, 전체적으로 키가 큰 편인지 작은 편인지

아니면 고르게 분포되어 있는지 등을 쉽게 파악할 수 있습니다.

 

히스토그램은

- 연속형 데이터의 분포를 시각화하는 데 사용됩니다.

- 가로축(X축)은 데이터 값의 구간을, 세로축(Y축)은 해당 구간에 속하는 데이터의 빈도(도수)를 나타냅니다.

- 막대는 각 구간에 속하는 데이터의 빈도수를 나타냅니다. 막대가 높을수록 해당 구간의 데이터가 많다는 뜻입니다.

- 막대들은 서로 붙어 있어 데이터가 연속적임을 나타냅니다.

- 데이터의 중심, 퍼짐, 비대칭성, 이상치(Outlier) 등을 파악하는게 유용합니다.

 

히스토그램을 통해 알 수 있는 분포의 종류:

- 정규 분포(Normal Distribution)

종 모양(Bell-shaped curve), 평균 주변에 데이터가 집중되고 양쪽으로 갈 수록 줄어듦

- 왼쪽으로 치우친 분포(Skewed Left):

꼬리가 왼쪽으로 길게 늘어진 형태

- 오른쪽으로 치우친 분포(Skewed Right):

꼬리가 오른쪽으로 길게 늘어진 형태

- 이봉 부포(Bimodal Distribution):

두 개의 봉우리(최빈값)을 가짐

 

통계량 내용을 요약 비교해보겠습니다.

통계량 설명 주요 용도
평균 (Mean) 모든 값의 합을 개수로 나눈 값 일반적인 '대표값', 균형점
중앙값 (Median) 데이터를 크기순으로 나열했을 때 중간에 위치하는 깂 이상치(Outlier)에 덜 민감한 대표값
표준편차
(Standard Deviation)
데이터가 평균으로부터 얼마나 퍼져있는지를 볼 수 있는 값 데이터의 변동성, 일관성, 위험도 파악
히스토그램 (Histogram) 데이터 분포를 시각화한 막대 그래프 데이터의 형태, 중심, 퍼짐, 이상치 시각적 확인

 

AI 헬스케어에서는 어떤식으로 쓰일지 알아보자면...

- '정상' 범위 설정을 통해 건강한 사람 수천명의 혈압 평균과 표준 편차를 구해 '정상 혈압' 범위를 정할 수 있습니다.

- '위험' 신호를 감지하여 내 혈압이 평균에서 표준편차의 몇 배 이상 벗어나 있다면 '위험 신호'로 보고 알림을 할 수 있습니다.

- 약을 먹은 그룹과 안 먹은 그룹의 평균 회복 기간을 비교해서 약의 효과를 증명할 수 있습니다.