티스토리 뷰
요즘 며칠간, 순수하게(?) 인쇄된 활자를 인식하는 것에 관심이 가고 있다.
뭐 아주 품질좋은 요구사항을 생각하는 것이 아니고, 이 정도다.
- 흑백으로된 이미지
- 스캔한 이미지가 아닌 컴퓨터 프로그램에 의해 파일로 인쇄된 정도
- 숫자들로만 구성됨
- 이탤릭 없음
- 10글자 이내
- 한 줄
- 폰트는 서너 가지
이보다 더 쉬울 수가 있을까마는, 아주 간단한 검색으로 다음과 같은 것들을 얻었다.
http://www.google.com/search?q=typewritten+recognition
처음발견되는 위키피디어 문서에서 다음과 같은 말이 있다.
The accurate recognition of Latin-script, typewritten text is now considered largely a solved problem
이란다. 거의 해결된 문제라고라. 링크를 따라가 보니, 자동차 번호판 인식에 관한 재밌는 글이 있군.
http://en.wikipedia.org/wiki/Automatic_number_plate_recognition
또 흥미로운 것은, 스팸로봇을 거부하기 위한 왜곡된 글씨생성 프로젝트인 CAPTCHA도 있다.
http://en.wikipedia.org/wiki/Captcha
captcha로 생성된 글자들을 인식하는 악의적인(?) 프로젝트도 있는데,
요놈들 한테서 소스를 구해볼까 생각중이다마는, 소스는 공개안하고 있다.
간단한 테스트를 해보니, 아주 단순한 화면 캡쳐는 인식을 못하는데, 왜곡된 글씨들은 잘 인식하는 우(?)를 범하더구만.
아마도, 정교한 인식이라기보다는 프로그램별로 알고리즘을 선택하여 인식하도록 되어 있는듯하다.
http://www.brains-n-brawn.com/default.aspx?vDir=aicaptcha
요놈들도 공개안하는군.
걍 하나 만들까? 어차피 내 요구사항은 그닥 높지도 않은데.
- Total
- Today
- Yesterday
- nodejs
- 커피
- MySQL
- SVN
- 오픈소스
- 클레로덴드럼
- 킹벤자민
- perl
- Tattertools plugin
- tattertools
- JavaScript
- url
- 대화
- VIM
- 수선화
- 벤자민
- 식물
- SSO
- OpenID
- BlogAPI
- writely
- TCP/IP
- 구근
- 덴드롱
- macosx
- Linux
- ssh
- 퀴즈
- 디버깅
- Subversion
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |