통계공부

통계 - 모집단, 표본, 평균과 중위수와 표준편차

말이킴 2025. 2. 3. 16:40

출처 : https://www.youtube.com/watch?v=J152M3d5kUM

 

비교 모수 통계량
표시방법 그리스 로마자 영어 알파벳
평균 μ / 뮤 x̅ / 엑스바 / M
표준편차 σ / 시그마 S / sd
분산 σ2 / 시그마 제곱 S2 / Var
데이터 수 N n

 평균 

모든 값을 더한 뒤 값의 갯수로 나눈 값

A : [4,4,4,5,6,6,6] - 평균 : 5

B : [1,1,1,5,9,9,9] - 평균 : 5

 두 집단의 평균이 같기 때문에 두 집단이 같을 수 도 있겠구나!(잘못된 생각)

 

표준평균으로 모평균을 추종하는 분석 : 모수 검정

t-test / anova / 회귀 분석

 

평균의 문제) 이상치로 인해 대표성이 상실 될 가능성이 있음

  A, B 두 그룹 모두 평균값은 5이지만 100이라는 이상치가 있다면 평균값은 16.88이 되어버린다.

 즉, 이상값이 있을 때 의미가 없어진다.


 중위수(Median)

집단의 모든 값을 순서대로 나열한 뒤 가운데 있는 값 / 이상치에 영향이 적음(로버스트하다)

 집단 내 요소가 짝수개 일 경우 : 나열 된 순서에서 가운데 두 값의 평균

   위 A, B 두 집단에 100이 추가로 있을 경우 (5 + 6) / 2의 값인 11.5 가 중위수

 집단 내 요소가 홀수개 일 경우 : 나열된 순서에서 가운데 있는 값,

   위에 A, B 두 집단의 중위수는 5 

 

평균을 사용하지 않는 검정 : 비모수 검정

 

중위수의 문제) 양 끝단에 이상치가 있을 경우 문제 발생


 표준편차(Median)

각 데이터 값과 평균의 차이를 제곱한 값들의 평균(분산)의 제곱근

 실제 데이터 값과 평균 사이가 얼마나 떨어져 있는지 알려준다

A : [4,4,4,5,6,6,6] - 평균 : 5 / 표준편차 : 1

B : [1,1,1,5,9,9,9] - 평균 : 5 / 표준편차 : 4

 

 

평균(M)과 표준편차(SD) 활용 평균 - 표준편차 평균 + 표준편차 분포
A 그룹 4 6 4 ~ 6
B 그룹 1 9 1 ~ 9

 

A 그룹의 대부분의 데이터가 4 ~ 6 사이에 위치한다

B 그룹의 대부분의 데이터가 1 ~ 9 사이에 위치한다

* 대부분 : 전체의 2 / 3의 값(68.3%) → 정규분포(가우시안 분포)


정규분포(Normal Distribution):
데이터가 평균을 중심으로 좌우 대칭을 이루며 종 모양을 띠는 연속 확률 분포

한 학급의 키 분포, 몸무게 분포, 성적 분포, 한 단위면적 내 나무들의 높이 분포 등 에서 쉽게 볼 수 있는 분포

정규 분포 일 때 평균에 의미가 생기고 정규 분포 일 때 평균을 이용한 분석을 모수검정이라 한다.

 

특징

1) 평균값이 가장 많은 종 모양 형태

2) 평균을 중심으로 좌우가 대칭을 이룬다

3) 평균 ± 1표준편차 = 0.683 -> 위의 대부분

    평균 ± 2표준편차 = 0.95

    평균 ± 3표준편차 = 0.997

 

샘플링 된 데이터가 정규분포를 따른다면 표본의 평균 x̅로 모수의 평균 μ를 추정하는데 문제가 없다

 

 

문제점

 1) 데이터에 이상치가 존재 할 경우 평균값이 왜곡 될 가능성이 크다

 2) 데이터가 정규분포를 따르지 않을 경우 모평균을 추정하는데 문제가 생김


정규성 검정(정규분포인가 아닌가 점검)

 

 왜도(skewness)와 첨도(kurtisis)

  사용처 : 서베이 연구(설문조사등)

 

 왜도

치우쳐짐 정도 / 그래프의 생김새가 한쪽으로 치우진 정도

 

정규분포일 때

     왜도 = 0 / 최빈값  == 중위값 == 평균

 

왼쪽으로 치우쳐져 있을 때(Right-skewed)

     왜도 > 0 / positive skewed / 최빈값 > 중위값 > 평균

 

오른쪽으로 치우쳐져 있을 때(Left-skewed)

     왜도 < 0 / Negative skewed / 최빈값 < 중위값 < 평균

 

기준 : abs(왜도) < 3 / 엄격하게 할 시 abs(왜도) < 2

 

 첨도

뾰족한 정도 / 그래프의 모양이 얼마나 뾰족한가?

뾰족하면 뾰족할 수록 표준편차가 작다

 

정규분포 일 때

     첨도 = 0

 

뾰족하다면

     첨도 > 0 / 표준편차는 작음

 

넓게 퍼져있다면

     첨도 < 0 / 표준펀차 큼

 

기준 : abs(첨도) < 7 / 엄격하게 할 시 abs(첨도) < 3

 

Shapiro Wilk / Kolmogorov-Smirnov

사용처 : 실험 / 중재 연구