반응형
분산
표준편차를 알기 전에 분산에대해 간단히 설명하고 가겠습니다.
데이터가 얼마나 퍼져있는지 알기 위해 분산을 구하는 작업을 했습니다.
분산을 이용하면 값들이 +와 -가 섞이게되어 값이 의미가 없어지는 불상사도 일어날 수 있기때문에 기호를 통일시 시켜주게 되었습니다.
이에대한 방법으로 각 값을 더하기 전에 제곱을 사용한 이후에 더합니다.
표준편차
분산은 데이터에 제곱을 함으로써 데이터가 너무 커지게 되고 확인하기 힘들어져서 루트를 사용하게 됐는데 그 결과가 표준편차입니다.
표준편차는 데이터들의 평균값을 중심으로 종합적으로 데이터가 얼마나 퍼져있는가를 나타내는 값입니다.
표준편차의 특징으로는 값이 클수록 데이터의 범위가 더 커지게됩니다.
표준편차는 아래와 같은 공식으로 구할 수 있습니다.
\[ \sigma = \sqrt\frac{\sum_{i=1}^N(x_{i}-\mu)^{2}}{N}\]
위의 공식을 사용하여 A,B 축구 동아리 회원들의 나이에대한 표준편차를 구해보겠습니다.
A_ages = [22, 40, 44, 26, 34, 36]
sum = 192
μ(avg) = 32
N = 6
∑Ni=1(xi−μ)2 = 100 + 64 + 144 + 36 + 4 + 16 = 364
σ(표준편차) = √60.6 ≈ 7.78
B_ages = [30, 17, 55, 45, 18, 27]
sum = 192
μ(avg) = 32
N = 6
∑Ni=1(xi−μ)2 = 4 + 289 + 529 + 81 + 196 + 49 = 1148
σ(표준편차) = √191.3 ≈ 13.83
해석
두 팀의 평균나이는 동일합니다.
하지만 B팀의 표준편차가 더 높은것으로 봐서 A팀보다 B팀의 연령의 격차가 크다는 것을 알 수 있습니다.
반응형
'개발 > DataAnalysis' 카테고리의 다른 글
정규분포란 무엇인가 (0) | 2021.01.25 |
---|