개발/DataAnalysis

개발/DataAnalysis

정규분포란 무엇인가

정규분포는 수집된 데이터들의 평균 근처에 값이 모여 있는 연속 확률분포입니다. 먼저 표준편차를 잘 모르시는 분들은 표준편차에 대한 글을 읽고 오시는것을 추천 드립니다. 정규분포는 가우스 분포라고도 불리고 그래프로 그렸을 경우에는 종형곡선(bell curve) 형태를 나타냅니다. 또한 평균이 0이고 표준편차가 1인 정규분포를표준 정규분포라고합니다. 정규분포는 수집된 자료의 분포를 근사하는 데에 자주 사용되며, 이것은 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문입니다. 간단한 그림으로 설명해드리겠습니다. (출처: 위키피디아 그림) 위의 그래프에서 뮤(μ)는 평균을, 시그마(σ)는 표준편차를 나타냅니다. 참고: 이 그래프에서는 시그마 제곱을 사용하였기때문에 분포입니..

개발/DataAnalysis

표준편차 구하기

분산 표준편차를 알기 전에 분산에대해 간단히 설명하고 가겠습니다. 데이터가 얼마나 퍼져있는지 알기 위해 분산을 구하는 작업을 했습니다. 분산을 이용하면 값들이 +와 -가 섞이게되어 값이 의미가 없어지는 불상사도 일어날 수 있기때문에 기호를 통일시 시켜주게 되었습니다. 이에대한 방법으로 각 값을 더하기 전에 제곱을 사용한 이후에 더합니다. 표준편차 분산은 데이터에 제곱을 함으로써 데이터가 너무 커지게 되고 확인하기 힘들어져서 루트를 사용하게 됐는데 그 결과가 표준편차입니다. 표준편차는 데이터들의 평균값을 중심으로 종합적으로 데이터가 얼마나 퍼져있는가를 나타내는 값입니다. 표준편차의 특징으로는 값이 클수록 데이터의 범위가 더 커지게됩니다. 표준편차는 아래와 같은 공식으로 구할 수 있습니다. \[ \sigma..

모플로
'개발/DataAnalysis' 카테고리의 글 목록