품사 태깅
품사 (Part of Speech) 태깅
Hama를 이용해 임의의 텍스트에서 다음 언어 요소들을 추출할 수 있습니다.
- 국어의 5언 (체언, 용언, 수식언, 독립언, 관계언)
- 국어의 9품사 (명사, 대명사, 수사, 동사, 형용사, 관형사, 부사, 조사, 감탄사)
- 어미
- 접사
- 외국어
- 문장 부호 (마침표, 쉼표, 괄호, 느낌표, 물음표, 따옴표 등)
- 그 외 (보조용언 등)
이 중, 5언(1)과 어미(3), 그리고 접사(4)는 동일한 기능을 가진 두 개의 인터페이스를 이용해 태그할 수 있습니다. 예를 들어, 텍스트에서 관계언을 추출하기 위한 postpositions
메소드와, 같은 역할을 하는 jos
라는 alias 함수를 같이 제공합니다. 개발자는 둘 중 더 손쉽고 기억하기 쉬운 인터페이스를 사용하면 됩니다.
위에 나열된 각 국문 구성 요소에 상응하는 태깅 인터페이스와 alias는 이 문서 하단의 한 눈에 보는 태그 함수 표에 정리되어 있습니다.
warning
현재 더욱 정확하고 가벼운 품사 태깅 알고리즘을 개발중입니다. 품사 태깅 기능은 잠시 사용을 보류해주세요! 개발 진행 상황은 github에서 확인하실 수 있습니다.
체언
from hama.tagging import nouns, ches
# 출력 결과 - ['이불', '담요']
nouns('이불 담요 덮어 춥잖어')
ches('이불 담요 덮어 춥잖어') # nouns와 동일한 리턴값을 가집니다.
1. 보통명사, 고유명사
from hama.tagging import nc
# 출력 결과 - ['마우스', '필요']
nc('마우스가 필요 없다')
2. 의존명사
from hama.tagging import nb
# 출력 결과 - ['움쿰']
nb('사탕을 한 움쿰 먹었어')
3. 대명사
from hama.tagging import np
# 출력 결과 - ['쟤', '저놈']
np('쟤랑 저놈이랑 한통속이야')
4. 수사
from hama.tagging import nn
# 출력 결과 - ['일억']
nn('일억개의 유산균이 있다고!')
용언
from hama.tagging import predicates, yongs
# 출력 결과 - ['가라사대']
predicates('스승님 가라사대')
yongs('스승님 가라사대') # predicates와 동일한 리턴값을 가집니다.
1. 동사
from hama.tagging import pv
# 출력 결과 - ['차다']
pv('공을 차다')
2. 형용사
from hama.tagging import pa
# 출력 결과 - ['댄디하다']
pa('패션이 참 댄디하다')
수식언
from hama.tagging import modifiers, soos
# 출력 결과 - ['이런저런', '헛튼']
modifiers('이런저런 헛튼 짓 하지 마')
soos('이런저런 헛튼 짓 하지 마') # modifiers와 동일한 리턴값을 가집니다.
1. 관형사
from hama.tagging import mm
# 출력 결과 - ['아무런', '무슨']
mm('아무런 일도 없었는데 무슨 말이야')
2. 부사
from hama.tagging import ma
# 출력 결과 - ['가지런히', '천천히']
ma('옷을 가지런히 놓고 천천히 돌아섰다')
독립언
from hama.tagging import orthotones, doks
# 출력 결과 - ['아이고', '휴우']
orthotones('아이고 사람살려 휴우')
doks('아이고 사람살려 휴우') # orthotones와 동일한 리턴값을 가집니다.
감탄사
from hama.tagging import ii
# 출력 결과 - ['히야']
ii('히야~ 대단하다')
관계언
from hama.tagging import postpositions, jos
# 출력 결과 - ['에게', '를']
postpositions('그에게 편지를 보냈다')
jos('그에게 편지를 보냈다') # postpositions와 동일한 리턴값을 가집니다.
1. 격조사, 서술격조사
from hama.tagging import jc
# 출력 결과 - ['는', '에게']
jc('그 메뉴는 나에게 너무 짜')
2. 보조사
from hama.tagging import jx
# 출력 결과 - ['까지']
jx('그 사람까지 끌어들이지 마!')
어미
from hama.tagging import suffixes, eoms
# 출력 결과 - ['지만요', '는', '잖아요']
suffixes('맞는 말씀이시지만요, 저희 상황도 있는거잖아요')
eoms('맞는 말씀이시지만요, 저희 상황도 있는거잖아요') # suffixes와 동일한 리턴값을 가집니다.
1. 선어말어미
from hama.tagging import ep
# 출력 결과 - ['으십시오']
ep('저를 힐러로 삼으십시오')
2. 연결어미
from hama.tagging import ec
# 출력 결과 - ['으려다가']
ec('참으려다가 말았다')
3. 전성어미
from hama.tagging import et
# 출력 결과 - ['이라는', '라는']
et('독립이라는 꿈이 있다라는 말입니다')
4. 종결어미
from hama.tagging import ef
# 출력 결과 - ['잖습니까', '자구요']
ef('덥잖습니까. 얼른 들어가자구요.')
접사
from hama.tagging import affixes, jubs
# 출력 결과 - ['살이']
affixes('원룸살이 졸업했다')
jubs('원룸살이 졸업했다') # affixes와 동일한 리턴값을 가집니다.
1. 접두사
from hama.tagging import xp
# 출력 결과 - ['햇']
xp('그는 정말 햇신입이야')
2. 접미사
from hama.tagging import xs
# 출력 결과 - ['지기']
xs('그는 등대지기 입니다.')
외국어
from hama.tagging import foreigns
# 출력 결과 - ['a', 'uh']
foreigns('a다르고 uh다르다')
문장 부호
from hama.tagging import symbols
# 출력 결과 - ['?', '!']
symbols('아니? 이럴수가!')
한눈에 보는 태그 함수 표
언어 요소 | 태깅 메소드 |
---|---|
체언 | nouns , ches |
보통명사, 고유명사 | nc |
의존명사 | nb |
대명사 | np |
수사 | nn |
용언 | predicates , yongs |
동사 | pv |
형용사 | pa |
수식언 | modifiers , soos |
관형사 | mm |
부사 | ma |
독립언 | orthotones , doks |
감탄사 | ii |
관계언 | postpositoins , jos |
격조사, 서술격조사 | jc |
보조사 | jx |
어미 | suffixes , eoms |
선어말어미 | ep |
연결어미 | ec |
전성어미 | et |
종결어미 | ef |
접사 | affixes , jubs |
접두사 | xp |
접미사 | xs |
외국어 | foreigns |
문장 부호 | symbols |
태그 지정 불가 | u |