Q: 한자어를 색인했을 때 두음법칙 등 오류가 발생하는 이유는?

'리익(이익)', '년도(연도)'와 같이 한자어를 색인할 때 발생하는 오류는
한자어 입력오류입니다.

한글문서에서 '리익'이나 '년도'라고 입력하였을 때 당연히 '리익',
'년도'라는 색인어가 추출됩니다.

문제는 한자어의 경우 2가지 이상의 음을 가질 때 각각에 대해 별도의
한자코드가 부여되어 있는데, 문서에는 동일한 한자로 표시되고 있어서
한자 입력오류를 알 수 없다는 점입니다.

그 예로는

  利(리) : 0xD7D7, 利(이) : 0xECA6
  更(갱) : 0xCBD6, 更(경) : 0xCCDA

문서에는 동일한 한자 '利'로 입력되어 있다고 하더라도 실제 코드값에 따라
한자코드가 0xECA6이면 '이'로 변환되지만, 0xD7D7은 '리'로 자동변환됩니다.

아래아 한글에서 '이익', '리익'을 각각 한자로 변환하여 코드값을 비교해 보면
알수 있습니다.

즉, 이 문제는 문서를 입력한 사람이 한자를 잘못 선택한 것이며,
정확히 얘기하면 보이지 않는 입력오류입니다.

이는 문서를 입력할 때 수정해야 하는 오류입니다. 자동으로 처리하려면
별도의 처리 모듈이 필요한데 첫음절인 경우는 비교적 쉽지만 '신뢰리익'처럼
첫음절이 아닌 경우는 간단하지 않습니다.