품사 태깅

품사 (Part of Speech) 태깅

Hama를 이용해 임의의 텍스트에서 다음 언어 요소들을 추출할 수 있습니다.

  1. 국어의 5언 (체언, 용언, 수식언, 독립언, 관계언)
  2. 국어의 9품사 (명사, 대명사, 수사, 동사, 형용사, 관형사, 부사, 조사, 감탄사)
  3. 어미
  4. 접사
  5. 외국어
  6. 문장 부호 (마침표, 쉼표, 괄호, 느낌표, 물음표, 따옴표 등)
  7. 그 외 (보조용언 등)

이 중, 5언(1)과 어미(3), 그리고 접사(4)는 동일한 기능을 가진 두 개의 인터페이스를 이용해 태그할 수 있습니다. 예를 들어, 텍스트에서 관계언을 추출하기 위한 postpositions 메소드와, 같은 역할을 하는 jos라는 alias 함수를 같이 제공합니다. 개발자는 둘 중 더 손쉽고 기억하기 쉬운 인터페이스를 사용하면 됩니다.

위에 나열된 각 국문 구성 요소에 상응하는 태깅 인터페이스와 alias는 이 문서 하단의 한 눈에 보는 태그 함수 표에 정리되어 있습니다.

warning

현재 더욱 정확하고 가벼운 품사 태깅 알고리즘을 개발중입니다. 품사 태깅 기능은 잠시 사용을 보류해주세요! 개발 진행 상황은 github에서 확인하실 수 있습니다.

체언

from hama.tagging import nouns, ches
# 출력 결과 - ['이불', '담요']
nouns('이불 담요 덮어 춥잖어')
ches('이불 담요 덮어 춥잖어') # nouns와 동일한 리턴값을 가집니다.

1. 보통명사, 고유명사

from hama.tagging import nc
# 출력 결과 - ['마우스', '필요']
nc('마우스가 필요 없다')

2. 의존명사

from hama.tagging import nb
# 출력 결과 - ['움쿰']
nb('사탕을 한 움쿰 먹었어')

3. 대명사

from hama.tagging import np
# 출력 결과 - ['쟤', '저놈']
np('쟤랑 저놈이랑 한통속이야')

4. 수사

from hama.tagging import nn
# 출력 결과 - ['일억']
nn('일억개의 유산균이 있다고!')

용언

from hama.tagging import predicates, yongs
# 출력 결과 - ['가라사대']
predicates('스승님 가라사대')
yongs('스승님 가라사대') # predicates와 동일한 리턴값을 가집니다.

1. 동사

from hama.tagging import pv
# 출력 결과 - ['차다']
pv('공을 차다')

2. 형용사

from hama.tagging import pa
# 출력 결과 - ['댄디하다']
pa('패션이 참 댄디하다')

수식언

from hama.tagging import modifiers, soos
# 출력 결과 - ['이런저런', '헛튼']
modifiers('이런저런 헛튼 짓 하지 마')
soos('이런저런 헛튼 짓 하지 마') # modifiers와 동일한 리턴값을 가집니다.

1. 관형사

from hama.tagging import mm
# 출력 결과 - ['아무런', '무슨']
mm('아무런 일도 없었는데 무슨 말이야')

2. 부사

from hama.tagging import ma
# 출력 결과 - ['가지런히', '천천히']
ma('옷을 가지런히 놓고 천천히 돌아섰다')

독립언

from hama.tagging import orthotones, doks
# 출력 결과 - ['아이고', '휴우']
orthotones('아이고 사람살려 휴우')
doks('아이고 사람살려 휴우') # orthotones와 동일한 리턴값을 가집니다.

감탄사

from hama.tagging import ii
# 출력 결과 - ['히야']
ii('히야~ 대단하다')

관계언

from hama.tagging import postpositions, jos
# 출력 결과 - ['에게', '를']
postpositions('그에게 편지를 보냈다')
jos('그에게 편지를 보냈다') # postpositions와 동일한 리턴값을 가집니다.

1. 격조사, 서술격조사

from hama.tagging import jc
# 출력 결과 - ['는', '에게']
jc('그 메뉴는 나에게 너무 짜')

2. 보조사

from hama.tagging import jx
# 출력 결과 - ['까지']
jx('그 사람까지 끌어들이지 마!')

어미

from hama.tagging import suffixes, eoms
# 출력 결과 - ['지만요', '는', '잖아요']
suffixes('맞는 말씀이시지만요, 저희 상황도 있는거잖아요')
eoms('맞는 말씀이시지만요, 저희 상황도 있는거잖아요') # suffixes와 동일한 리턴값을 가집니다.

1. 선어말어미

from hama.tagging import ep
# 출력 결과 - ['으십시오']
ep('저를 힐러로 삼으십시오')

2. 연결어미

from hama.tagging import ec
# 출력 결과 - ['으려다가']
ec('참으려다가 말았다')

3. 전성어미

from hama.tagging import et
# 출력 결과 - ['이라는', '라는']
et('독립이라는 꿈이 있다라는 말입니다')

4. 종결어미

from hama.tagging import ef
# 출력 결과 - ['잖습니까', '자구요']
ef('덥잖습니까. 얼른 들어가자구요.')

접사

from hama.tagging import affixes, jubs
# 출력 결과 - ['살이']
affixes('원룸살이 졸업했다')
jubs('원룸살이 졸업했다') # affixes와 동일한 리턴값을 가집니다.

1. 접두사

from hama.tagging import xp
# 출력 결과 - ['햇']
xp('그는 정말 햇신입이야')

2. 접미사

from hama.tagging import xs
# 출력 결과 - ['지기']
xs('그는 등대지기 입니다.')

외국어

from hama.tagging import foreigns
# 출력 결과 - ['a', 'uh']
foreigns('a다르고 uh다르다')

문장 부호

from hama.tagging import symbols
# 출력 결과 - ['?', '!']
symbols('아니? 이럴수가!')

한눈에 보는 태그 함수 표

언어 요소태깅 메소드
체언nouns, ches
보통명사, 고유명사nc
의존명사nb
대명사np
수사nn
용언predicates, yongs
동사pv
형용사pa
수식언modifiers, soos
관형사mm
부사ma
독립언orthotones, doks
감탄사ii
관계언postpositoins, jos
격조사, 서술격조사jc
보조사jx
어미suffixes, eoms
선어말어미ep
연결어미ec
전성어미et
종결어미ef
접사affixes, jubs
접두사xp
접미사xs
외국어foreigns
문장 부호symbols
태그 지정 불가u