2015년 4월 29일 수요일

[매드프로젝트 강좌] KALMAN Filter - 03. 평균, 편차, 분산, 표준편차 그리고 공분산

이번에는 칼만필터를 이해하기 위한 선행학습들 중 하나인

평균, 편차, 분산, 표준편차 그리고 공분산에 대해서 학습해 보도록 하자.

평균(mean) 이란 기준이 되는 중간값으로 전체를 다 더해서 더한 개수만큼 다시 나눠주면 평균이 된다. 평균을 하는 이유는 누가 더 잘했고 못했는지를 기준을 통해 알기 위해 중간값으로 평균을 만들게 된다.

편차(deviation) 란 기본값에서 평균값을 뺀 값으로 편차가 클 수록 평균에서 멀리 떨어져 있음을 나타낸다. 따라서 편차들의 합은 0이 된다.

분산(variance) 이란 편차의 제곱을 기본값으로 나눈 것으로 편차 제곱값들의 평균이 분산이다. 분산은 평균에 얼마나 가깝게 밀집해 있느냐 떨어져 있느냐를 구분하는 것으로 분산이 크면 기본값들이 평균값에 멀리 떨어져 있는 것이고 분산이 작으면 기본값들이 평균값에 가까이 모여 있는 것이다.

이런 분산에 다른 수식이 있는데 위 식의 N 대신 n-1로 나누는 것을 말한다. 식으로 다시보면

위와 같이 쓰게 되는데 N으로 나누는 경우는 '모집단의 분산'일 경우에 사용하고 n-1로 나누는 경우는 '표본집단의 분산'일 경우에 사용한다.

그럼 여기서 모집단은 머고 표본집단은 무엇인지 확인하고 넘어가자.

예를들어 고등학생들의 영어성적을 알고 싶다고 했을 때,

전국 모든 고등학생들의 영어성적 데이터 - 모집단
을 가지고 추출하는 것이 힘들다. 그래서

몇몇 대표할만한 고등학생들의 성적 - 표본집단
을 바탕으로 정보를 추출해야한다.

이런 분산을 음이 아니게 하기 위해 제곱한 후 루트를 씌우게 되면 표준편차가 된다.
(절대 값이 아닌 제곱하는 이유는 미적분에서 계산하기 편해서라는 어딘가 인터넷 블로그 자료가 있었음)

표준편차(standard deviation)란 분산에서 제곱한 값을 루트를 통해 다시 원래의 단위로 맞춰주는 것인데 표준편차가 클수록 기본값들간의 차이가 크다는 것을 의미하고 평균 밖으로 많이 퍼져있다는 것을 의미한다.

위에 얘기한 평균, 분산, 표준편차를 정리해보면