이번 포스트에서는
평균, 중앙값, 표준편차와 같은 통계량을 이해하고 히스토그램까지 다뤄보겠습니다.
평균과 중앙값
평균(Mean)
- 데이터의 모든 값을 합산한 후, 데이터 항목의 개수로 나눈 값
- 데이터셋의 '중심'을 나타내는 가장 일반적인 척도 중 하나
평균은 우리가 일상생활에서 가장 흔하게 접하는 통계량입니다.
예를 들어 한 학급 학생들의 시험 점수 평균을 계산할 때 모든 학생의 점수를 더한 다음 학생 수로 나누는 것이
바로 평균 입니다.
이는 데이터가 어디쯤에 몰려있는지 대략적으로 알려주는 값으로, 데이터의 전체적인 경향을 파악하는데 유용합니다.
평균은
- 모든 데이터 값을 계산에 사용합니다.
- 이상치(극단적인 값)에 매우 민감하게 반응하여 평균이 왜곡될 수 있습니다.
- 대칭적인 분포를 가진 데이터에 적합합니다.
- NumPy 의 mean() 함수를 사용하여 계산할 수 있습니다.
중앙값 (Median)
- 데이터를 오름차순 또는 내림차순으로 정렬했을 때 가장 중앙에 위치하는 값
- 데이터셋의 정확한 중간점을 나타냄
데이터셋을 두 개의 동일한 크기의 부분으로 나누는 값입니다.
예를 들어 시험 점수가 낮은 학생부터 높은 학생까지 줄을 세웠을 때, 정확히 중간에 서 있는 학생의 점수가
중앙값이 됩니다. 데이터에 극단적인 값이 있을 때 평균보다 데이터의 중심을 더 잘 나타낼 수 있습니다.
실생활에서 더 예를 들어볼 때 부동산 가격이나 소득 수준과 같은 데이터를 분석할 때 중앙값이 유용하게 사용됩니다.
몇몇 고가의 부동산이나 고소득자가 전체 평균을 끌어올릴 수 있기 때문에
중앙값을 통해 일반적인 수준을 파악하는 것이 더 정확할 수 있습니다.
중앙값은
- 데이터의 정렬 순서에 따라 결정됩니다.
- 이상치(극단적인 값)에 크게 영향을 받지 않습니다.
- 데이터 분포가 비대칭적일 때 유용합니다.
- NumPy의 median() 함수를 사용하여 계산할 수 있습니다.
* 평균과 중앙값은 혼동될 수 있습니다.
평균은 모든 값의 합을 개수로 나눈 것이고,
중앙값은 정렬된 데이터의 물리적인 중간 위치 값입니다.
소득 분포와 같이 비대칭적인 데이터에서는 중앙값이 평균보다 더 현실적인 '중심'을 나타내는 경우가 많습니다.
표준 편차 (Standard Devation)
표준편차는
데이터들이 평균 주변에 얼마나 모여있는지, 즉 데이터의 분포가 얼마나 넓은지를 나타내는 척도 입니다.
데이터의 '변동성'또는 '산포도'를 측정할 수 있습니다.
표준편차가 작으면 데이터가 평균 근처에 밀집해 있다(데이터의 일관성이 높음)는 뜻이고,
표준편차가 크면 데이터가 평균으로부터 넓게 퍼져 있다(데이터의 변동성이 큼)는 뜻입니다.
예를 들어
두 반의 시험 평균 점수는 같지만
한 반은 점수 편차가 작고 다른 반은 점수 편차가 크다면 표준편차를 통해 그 차이를 알 수 있습니다.
표준편차는
- 데이터의 산포도를 나타내는 가장 일반적인 척도입니다.
- 분산의 양의 제곱근으로 계산됩니다. (분산: 제곱된 편차들의 평균/ 편차: 각 데이터 포인트에서 평균을 뺀 값)
- 단위가 원래 데이터와 동일하여 직관적인 이해를 돕습니다.
- 이상치에 민감합니다.
표준편차를 알면 데이터의 안전성을 파악하고 얼마나 신뢰 가능한지, 얼마나 예측 가능한지 더 정확하게 이해할 수 있습니다.
히스토그램 (Histogram)
히스토그램은
데이터의 분포를 시각적으로 보여주는 그래프입니다.
데이터를 여러 구간(bin)으로 나누고, 각 구간에 속하는 데이터의 개수(빈도)를 막대 그래프 형태로 나타냅니다.
예를 들어
한 학급 학생들의 키 분포를 알고 싶다면, 키를 몇개의 구간(예: 150-155cm, 155-160cm ... )등으로 나누고
각 구간에 해당하는 학생 수를 세어 막대 그래프로 그릴 수 있습니다.
이 그래프를 통해 키가 어느 구간에 가장 많이 분포되어 있는지, 전체적으로 키가 큰 편인지 작은 편인지
아니면 고르게 분포되어 있는지 등을 쉽게 파악할 수 있습니다.
히스토그램은
- 연속형 데이터의 분포를 시각화하는 데 사용됩니다.
- 가로축(X축)은 데이터 값의 구간을, 세로축(Y축)은 해당 구간에 속하는 데이터의 빈도(도수)를 나타냅니다.
- 막대는 각 구간에 속하는 데이터의 빈도수를 나타냅니다. 막대가 높을수록 해당 구간의 데이터가 많다는 뜻입니다.
- 막대들은 서로 붙어 있어 데이터가 연속적임을 나타냅니다.
- 데이터의 중심, 퍼짐, 비대칭성, 이상치(Outlier) 등을 파악하는게 유용합니다.
히스토그램을 통해 알 수 있는 분포의 종류:
- 정규 분포(Normal Distribution)
종 모양(Bell-shaped curve), 평균 주변에 데이터가 집중되고 양쪽으로 갈 수록 줄어듦
- 왼쪽으로 치우친 분포(Skewed Left):
꼬리가 왼쪽으로 길게 늘어진 형태
- 오른쪽으로 치우친 분포(Skewed Right):
꼬리가 오른쪽으로 길게 늘어진 형태
- 이봉 부포(Bimodal Distribution):
두 개의 봉우리(최빈값)을 가짐
통계량 내용을 요약 비교해보겠습니다.
| 통계량 | 설명 | 주요 용도 |
| 평균 (Mean) | 모든 값의 합을 개수로 나눈 값 | 일반적인 '대표값', 균형점 |
| 중앙값 (Median) | 데이터를 크기순으로 나열했을 때 중간에 위치하는 깂 | 이상치(Outlier)에 덜 민감한 대표값 |
| 표준편차 (Standard Deviation) |
데이터가 평균으로부터 얼마나 퍼져있는지를 볼 수 있는 값 | 데이터의 변동성, 일관성, 위험도 파악 |
| 히스토그램 (Histogram) | 데이터 분포를 시각화한 막대 그래프 | 데이터의 형태, 중심, 퍼짐, 이상치 시각적 확인 |
AI 헬스케어에서는 어떤식으로 쓰일지 알아보자면...
- '정상' 범위 설정을 통해 건강한 사람 수천명의 혈압 평균과 표준 편차를 구해 '정상 혈압' 범위를 정할 수 있습니다.
- '위험' 신호를 감지하여 내 혈압이 평균에서 표준편차의 몇 배 이상 벗어나 있다면 '위험 신호'로 보고 알림을 할 수 있습니다.
- 약을 먹은 그룹과 안 먹은 그룹의 평균 회복 기간을 비교해서 약의 효과를 증명할 수 있습니다.
'[오즈코딩스쿨] AI 헬스케어 > ➕ 기초 수학과 통계' 카테고리의 다른 글
| [기초 수학과 통계] 함수와 그래프 (0) | 2025.10.16 |
|---|---|
| [기초 수학과 통계] AI와 언어, 선형대수 (0) | 2025.10.15 |