티스토리 뷰

요즘 며칠간, 순수하게(?) 인쇄된 활자를 인식하는 것에 관심이 가고 있다.

뭐 아주 품질좋은 요구사항을 생각하는 것이 아니고, 이 정도다.

  1. 흑백으로된 이미지
  2. 스캔한 이미지가 아닌 컴퓨터 프로그램에 의해 파일로 인쇄된 정도
  3. 숫자들로만 구성됨
  4. 이탤릭 없음
  5. 10글자 이내
  6. 한 줄
  7. 폰트는 서너 가지

이보다 더 쉬울 수가 있을까마는, 아주 간단한 검색으로 다음과 같은 것들을 얻었다.

http://www.google.com/search?q=typewritten+recognition

처음발견되는 위키피디어 문서에서 다음과 같은 말이 있다.

The accurate recognition of Latin-script, typewritten text is now considered largely a solved problem

이란다. 거의 해결된 문제라고라. 링크를 따라가 보니, 자동차 번호판 인식에 관한 재밌는 글이 있군.

http://en.wikipedia.org/wiki/Automatic_number_plate_recognition

또 흥미로운 것은, 스팸로봇을 거부하기 위한 왜곡된 글씨생성 프로젝트인 CAPTCHA도 있다.

http://www.captcha.net/

http://en.wikipedia.org/wiki/Captcha

captcha로 생성된 글자들을 인식하는 악의적인(?) 프로젝트도 있는데,

http://sam.zoy.org/pwntcha/

요놈들 한테서 소스를 구해볼까 생각중이다마는, 소스는 공개안하고 있다.

간단한 테스트를 해보니, 아주 단순한 화면 캡쳐는 인식을 못하는데, 왜곡된 글씨들은 잘 인식하는 우(?)를 범하더구만.

아마도, 정교한 인식이라기보다는 프로그램별로 알고리즘을 선택하여 인식하도록 되어 있는듯하다.

http://www.brains-n-brawn.com/default.aspx?vDir=aicaptcha

요놈들도 공개안하는군.

걍 하나 만들까? 어차피 내 요구사항은 그닥 높지도 않은데.


반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함