Wednesday, January 06, 2010

한글 형태소분석기 moHANA 사용 후기

한글 stemmer를 검색하다가
CMU LTI김재동 형과 강인호 박사님이 개발에 참여하신
moHANA를 알게 되었다.

아는 사람들이 만든 것이고,
학술용 free beta version이 있어서 돌려봤는데,
일단 잘 돌아간다.

더 자세한 사용기는 추후에 좀 더 써 보고...

moHANA를 사용하다가 생긴 setting 문제...

input encoding은 euc-kr이어야 한다.
환경변수 LANG=ko_KR.eucKR, LC_ALL=ko_KR.eucKR로 세팅하고, 사용하는 터미널의
encoding을 EUCKR로 세팅해야 함

episode about Automatic Speech Recognition (ASR)

미국에는 ASR을 사용하는 무료 411 service가 몇 개 있다.
이와 관련된 재밌는 글이 하나 있어서 link...

http://ewh.ieee.org/soc/sps/stc/News/NL0711/NL0711-411.htm

나는 아직 한 번도 제대로 써 본 적이 없는데...

Federal Communications Commission (FCC)의 closed captioning (CC)

예전에 ABC 뉴스 보면서 caption이 뜨는 것을 보면서
왜 저런 삽질스러운 일을 할까 궁금했었는데,
FCC에서 관련 규정을 만든 것이었군요.

http://www.fcc.gov/cgb/consumerfacts/closedcaption.html

미국내 모든 broadcast 방송은 반드시 caption을 같이 공급해야 한다네요.
무려 1990년대부터 시행한 규정이네요.

장애인을 위한 조치였는지, 아니면 Speech Recognition을 위한 조치였는지 모르겠지만,
어쨌든 이제는 Speech Recognition corpus로 광범위하게 쓰일 수 있는 여지를 마련했네요.
우리나라도 비슷한 규정이 있으려나?