통계 - 모집단, 표본, 평균과 중위수와 표준편차
출처 : https://www.youtube.com/watch?v=J152M3d5kUM
비교 | 모수 | 통계량 |
표시방법 | 그리스 로마자 | 영어 알파벳 |
평균 | μ / 뮤 | x̅ / 엑스바 / M |
표준편차 | σ / 시그마 | S / sd |
분산 | σ2 / 시그마 제곱 | S2 / Var |
데이터 수 | N | n |
평균
모든 값을 더한 뒤 값의 갯수로 나눈 값
A : [4,4,4,5,6,6,6] - 평균 : 5
B : [1,1,1,5,9,9,9] - 평균 : 5
두 집단의 평균이 같기 때문에 두 집단이 같을 수 도 있겠구나!(잘못된 생각)
표준평균으로 모평균을 추종하는 분석 : 모수 검정
t-test / anova / 회귀 분석
평균의 문제) 이상치로 인해 대표성이 상실 될 가능성이 있음
A, B 두 그룹 모두 평균값은 5이지만 100이라는 이상치가 있다면 평균값은 16.88이 되어버린다.
즉, 이상값이 있을 때 의미가 없어진다.
중위수(Median)
집단의 모든 값을 순서대로 나열한 뒤 가운데 있는 값 / 이상치에 영향이 적음(로버스트하다)
집단 내 요소가 짝수개 일 경우 : 나열 된 순서에서 가운데 두 값의 평균
위 A, B 두 집단에 100이 추가로 있을 경우 (5 + 6) / 2의 값인 11.5 가 중위수
집단 내 요소가 홀수개 일 경우 : 나열된 순서에서 가운데 있는 값,
위에 A, B 두 집단의 중위수는 5
평균을 사용하지 않는 검정 : 비모수 검정
중위수의 문제) 양 끝단에 이상치가 있을 경우 문제 발생
표준편차(Median)
각 데이터 값과 평균의 차이를 제곱한 값들의 평균(분산)의 제곱근
실제 데이터 값과 평균 사이가 얼마나 떨어져 있는지 알려준다
A : [4,4,4,5,6,6,6] - 평균 : 5 / 표준편차 : 1
B : [1,1,1,5,9,9,9] - 평균 : 5 / 표준편차 : 4
평균(M)과 표준편차(SD) 활용 | 평균 - 표준편차 | 평균 + 표준편차 | 분포 |
A 그룹 | 4 | 6 | 4 ~ 6 |
B 그룹 | 1 | 9 | 1 ~ 9 |
A 그룹의 대부분의 데이터가 4 ~ 6 사이에 위치한다
B 그룹의 대부분의 데이터가 1 ~ 9 사이에 위치한다
* 대부분 : 전체의 2 / 3의 값(68.3%) → 정규분포(가우시안 분포)
정규분포(Normal Distribution):
데이터가 평균을 중심으로 좌우 대칭을 이루며 종 모양을 띠는 연속 확률 분포
한 학급의 키 분포, 몸무게 분포, 성적 분포, 한 단위면적 내 나무들의 높이 분포 등 에서 쉽게 볼 수 있는 분포
정규 분포 일 때 평균에 의미가 생기고 정규 분포 일 때 평균을 이용한 분석을 모수검정이라 한다.
특징
1) 평균값이 가장 많은 종 모양 형태
2) 평균을 중심으로 좌우가 대칭을 이룬다
3) 평균 ± 1표준편차 = 0.683 -> 위의 대부분
평균 ± 2표준편차 = 0.95
평균 ± 3표준편차 = 0.997
샘플링 된 데이터가 정규분포를 따른다면 표본의 평균 x̅로 모수의 평균 μ를 추정하는데 문제가 없다
문제점
1) 데이터에 이상치가 존재 할 경우 평균값이 왜곡 될 가능성이 크다
2) 데이터가 정규분포를 따르지 않을 경우 모평균을 추정하는데 문제가 생김
정규성 검정(정규분포인가 아닌가 점검)
왜도(skewness)와 첨도(kurtisis)
사용처 : 서베이 연구(설문조사등)
왜도
치우쳐짐 정도 / 그래프의 생김새가 한쪽으로 치우진 정도
정규분포일 때
왜도 = 0 / 최빈값 == 중위값 == 평균
왼쪽으로 치우쳐져 있을 때(Right-skewed)
왜도 > 0 / positive skewed / 최빈값 > 중위값 > 평균
오른쪽으로 치우쳐져 있을 때(Left-skewed)
왜도 < 0 / Negative skewed / 최빈값 < 중위값 < 평균
기준 : abs(왜도) < 3 / 엄격하게 할 시 abs(왜도) < 2
첨도
뾰족한 정도 / 그래프의 모양이 얼마나 뾰족한가?
뾰족하면 뾰족할 수록 표준편차가 작다
정규분포 일 때
첨도 = 0
뾰족하다면
첨도 > 0 / 표준편차는 작음
넓게 퍼져있다면
첨도 < 0 / 표준펀차 큼
기준 : abs(첨도) < 7 / 엄격하게 할 시 abs(첨도) < 3
Shapiro Wilk / Kolmogorov-Smirnov
사용처 : 실험 / 중재 연구