1. HAM에서 분리되는 접미사 리스트

형태소 분석시에 사용하고 있는 접미사 리스트입니다.
즉, 형태소 분석시에 접미사를 분리하고 어근을 분리하기 위해
<특수목적>으로 사용되고 있는 것들입니다.

특히, '및'은 원래 띄어써야 맞지만 붙여쓴 경우가 자주
발생하는 오류를 처리하기 위한 것으로 문법적으로 따지면
접미사가 아닙니다. 따라서 완벽한 것은 아니며 응용 목적에
따라 첨삭이 되어야 할 것으로 생각됩니다.

체언접미사 --- hdic2/sfx-n.h 참조

  등, 적, 중, 등, 랑, 뿐, 식, 상, 성, 형, 화, 별, 용, 측
  간, 째, 쪽, 쯤, 시, 내, 하, 껏, 씩, 속, 뒤, 씨, 및,
  후, 경, 당 들뿐, 끼리, 들끼리, 짜리, 면, 네, 외, 때문

용언화접미사 --- hdic2/sfx-v.h 참조

  이, 하, 되, 스럽, 시키, 있, 없, 같, 답, 당하, 만하, 드리, 받

용언화접미사 중에서 '이다'는 서술격조사로 간주하는 경우가
많지만 '하다/되다/시키다' 등과 형태론적 특성이 동일하므로
제 형태소 분석기에서는 용언화접미사로 간주하고 있어서 포함된
것입니다.

이외에도 많은 접미사들이 있으나 제 형태소 분석기에서는
가급적 접미사 집합의 크기를 최소화하려고 했기 때문에
그 개수가 많지 않습니다. 적용범위가 좁은 접미사들을
분리했을 때 분석오류가 그만큼 증가하기 때문입니다.

2. HAM에서 내부적으로 사용되는 접두사

HAM은 접두사를 분리하지는 않고, 다만 어간부(stem-part)를 확인하는
제한적인 용도로만 사용합니다. 그 이유는 접두사를 분리할 경우에
오분석 가능성이 높아지기 때문입니다.
형태소 분석기 HAM에서는 어간부가 사전에 등록되지 않은 미등록어일 때
이 형태소가 어휘형태소임을 확인하기 위하여 접두사를 check하고 있습니다.
이러한 목적으로 사용되고 있는 접두사들은 아래와 같습니다.

  대, 소, 고, 저, 과, 비, 미, 불, 첫, 끝, 앞, 뒤