본문 바로가기

수학 관련

Nomalized Cross Correlation

 

참고: http://en.wikipedia.org/wiki/Cross-correlation#Normalized_cross-correlation

 

두 데이터의 연관성을 찾는 기법 중 하나.

 다차원 값을 가진 벡터 f와 t간의 연관성을 찾고 싶다면 (평균을 빼고 단위길이로 만든 벡터가 F, T라면) 두 벡터가 이루는 각 theta의 cosine 값으로 계산한다. -1에서 1값이 나오면서 1에 가까울 수록 양의 연관성이 높다는 것을 의미.

다시말하면 먼저 각 원소의 평균값을 f와 t에 관해서 구한 다음 이를 자신들에서 빼고,

F(x,y) = f(x,y) - \overline{f}
T(x,y) = t(x,y) - \overline{t}

각각을 unit vector로 만들어 나누어 서로 내적한 것이다.

\left\langle\frac{F}{\|F\|},\frac{T}{\|T\|}\right\rangle

평균을 빼고 길이로 나누는 것은 일종의 정규화 과정이다.

다른 식으로 정의한다면

\frac{1}{n-1} \sum_{x,y}\frac{(f(x,y) - \overline{f})(t(x,y) - \overline{t})}{\sigma_f \sigma_t}.

여기서 시그마f 와 시그마t는 f와 t의 (F,T말고) 표준 편차이다. 그런데 왜 n-1 이지? ;; 표본 표준 편차인가 ?;;