한글 stemmer를 검색하다가
CMU LTI의 김재동 형과 강인호 박사님이 개발에 참여하신
moHANA를 알게 되었다.
아는 사람들이 만든 것이고,
학술용 free beta version이 있어서 돌려봤는데,
일단 잘 돌아간다.
더 자세한 사용기는 추후에 좀 더 써 보고...
moHANA를 사용하다가 생긴 setting 문제...
input encoding은 euc-kr이어야 한다.
환경변수 LANG=ko_KR.eucKR, LC_ALL=ko_KR.eucKR로 세팅하고, 사용하는 터미널의
encoding을 EUCKR로 세팅해야 함
Wednesday, January 06, 2010
episode about Automatic Speech Recognition (ASR)
미국에는 ASR을 사용하는 무료 411 service가 몇 개 있다.
이와 관련된 재밌는 글이 하나 있어서 link...
http://ewh.ieee.org/soc/sps/stc/News/NL0711/NL0711-411.htm
나는 아직 한 번도 제대로 써 본 적이 없는데...
이와 관련된 재밌는 글이 하나 있어서 link...
http://ewh.ieee.org/soc/sps/stc/News/NL0711/NL0711-411.htm
나는 아직 한 번도 제대로 써 본 적이 없는데...
Federal Communications Commission (FCC)의 closed captioning (CC)
예전에 ABC 뉴스 보면서 caption이 뜨는 것을 보면서
왜 저런 삽질스러운 일을 할까 궁금했었는데,
FCC에서 관련 규정을 만든 것이었군요.
http://www.fcc.gov/cgb/consumerfacts/closedcaption.html
미국내 모든 broadcast 방송은 반드시 caption을 같이 공급해야 한다네요.
무려 1990년대부터 시행한 규정이네요.
장애인을 위한 조치였는지, 아니면 Speech Recognition을 위한 조치였는지 모르겠지만,
어쨌든 이제는 Speech Recognition corpus로 광범위하게 쓰일 수 있는 여지를 마련했네요.
우리나라도 비슷한 규정이 있으려나?
왜 저런 삽질스러운 일을 할까 궁금했었는데,
FCC에서 관련 규정을 만든 것이었군요.
http://www.fcc.gov/cgb/consumerfacts/closedcaption.html
미국내 모든 broadcast 방송은 반드시 caption을 같이 공급해야 한다네요.
무려 1990년대부터 시행한 규정이네요.
장애인을 위한 조치였는지, 아니면 Speech Recognition을 위한 조치였는지 모르겠지만,
어쨌든 이제는 Speech Recognition corpus로 광범위하게 쓰일 수 있는 여지를 마련했네요.
우리나라도 비슷한 규정이 있으려나?
Subscribe to:
Posts (Atom)