요즘 며칠간, 순수하게(?) 인쇄된 활자를 인식하는 것에 관심이 가고 있다.

뭐 아주 품질좋은 요구사항을 생각하는 것이 아니고, 이 정도다.

  1. 흑백으로된 이미지
  2. 스캔한 이미지가 아닌 컴퓨터 프로그램에 의해 파일로 인쇄된 정도
  3. 숫자들로만 구성됨
  4. 이탤릭 없음
  5. 10글자 이내
  6. 한 줄
  7. 폰트는 서너 가지

이보다 더 쉬울 수가 있을까마는, 아주 간단한 검색으로 다음과 같은 것들을 얻었다.

http://www.google.com/search?q=typewritten+recognition

처음발견되는 위키피디어 문서에서 다음과 같은 말이 있다.

The accurate recognition of Latin-script, typewritten text is now considered largely a solved problem

이란다. 거의 해결된 문제라고라. 링크를 따라가 보니, 자동차 번호판 인식에 관한 재밌는 글이 있군.

http://en.wikipedia.org/wiki/Automatic_number_plate_recognition

또 흥미로운 것은, 스팸로봇을 거부하기 위한 왜곡된 글씨생성 프로젝트인 CAPTCHA도 있다.

http://www.captcha.net/

http://en.wikipedia.org/wiki/Captcha

captcha로 생성된 글자들을 인식하는 악의적인(?) 프로젝트도 있는데,

http://sam.zoy.org/pwntcha/

요놈들 한테서 소스를 구해볼까 생각중이다마는, 소스는 공개안하고 있다.

간단한 테스트를 해보니, 아주 단순한 화면 캡쳐는 인식을 못하는데, 왜곡된 글씨들은 잘 인식하는 우(?)를 범하더구만.

아마도, 정교한 인식이라기보다는 프로그램별로 알고리즘을 선택하여 인식하도록 되어 있는듯하다.

http://www.brains-n-brawn.com/default.aspx?vDir=aicaptcha

요놈들도 공개안하는군.

걍 하나 만들까? 어차피 내 요구사항은 그닥 높지도 않은데.


  1. 나부군 2006.07.05 08:11

    http://nabugoon.cafe24.com/blog_old/index.php?search=ocr

    관련해서 OCR프로그램을 만들던게 있는데, 필요하시면, 찾아서 보내드리도록 하겠습니다. ;)

    • 최호진 2006.07.06 00:01

      아.. 그러실 필요까지는 없습니다.
      도움을 주시겠다니 마음은 충분히 받겠습니다. ;)

      감사합니다.
      보여주신 링크에 있는 라이브러리들을 테스트 해봐야겠군요.

  2. 미친감자 2006.07.06 09:27

    음.좋네~~

  3. 도아 2008.09.01 18:06

    icaptcha가 Cafe24에서 동작하지 않아 구글링을 하다가 들어와 보니 도메인 이름과 주인장 이름이 아는 이름이더군요. 잘 지내시죠?

    • 최호진 2008.09.03 15:33

      안녕하세요?
      자알은 아니고 그럭저럭 지내고 있습니다. ;)

      가을이 되어 놀기도 좋은 날이 왔습니다!
      기분도 좋아졌으면 좋겠네요.

+ Recent posts