티스토리 뷰
요즘 며칠간, 순수하게(?) 인쇄된 활자를 인식하는 것에 관심이 가고 있다.
뭐 아주 품질좋은 요구사항을 생각하는 것이 아니고, 이 정도다.
- 흑백으로된 이미지
- 스캔한 이미지가 아닌 컴퓨터 프로그램에 의해 파일로 인쇄된 정도
- 숫자들로만 구성됨
- 이탤릭 없음
- 10글자 이내
- 한 줄
- 폰트는 서너 가지
이보다 더 쉬울 수가 있을까마는, 아주 간단한 검색으로 다음과 같은 것들을 얻었다.
http://www.google.com/search?q=typewritten+recognition
처음발견되는 위키피디어 문서에서 다음과 같은 말이 있다.
The accurate recognition of Latin-script, typewritten text is now considered largely a solved problem
이란다. 거의 해결된 문제라고라. 링크를 따라가 보니, 자동차 번호판 인식에 관한 재밌는 글이 있군.
http://en.wikipedia.org/wiki/Automatic_number_plate_recognition
또 흥미로운 것은, 스팸로봇을 거부하기 위한 왜곡된 글씨생성 프로젝트인 CAPTCHA도 있다.
http://en.wikipedia.org/wiki/Captcha
captcha로 생성된 글자들을 인식하는 악의적인(?) 프로젝트도 있는데,
요놈들 한테서 소스를 구해볼까 생각중이다마는, 소스는 공개안하고 있다.
간단한 테스트를 해보니, 아주 단순한 화면 캡쳐는 인식을 못하는데, 왜곡된 글씨들은 잘 인식하는 우(?)를 범하더구만.
아마도, 정교한 인식이라기보다는 프로그램별로 알고리즘을 선택하여 인식하도록 되어 있는듯하다.
http://www.brains-n-brawn.com/default.aspx?vDir=aicaptcha
요놈들도 공개안하는군.
걍 하나 만들까? 어차피 내 요구사항은 그닥 높지도 않은데.
-
나부군 http://nabugoon.cafe24.com/blog_old/index.php?search=ocr
관련해서 OCR프로그램을 만들던게 있는데, 필요하시면, 찾아서 보내드리도록 하겠습니다.2006.07.05 08:11
-
최호진 아.. 그러실 필요까지는 없습니다.
도움을 주시겠다니 마음은 충분히 받겠습니다.
감사합니다.
보여주신 링크에 있는 라이브러리들을 테스트 해봐야겠군요. 2006.07.06 00:01 -
미친감자 음.좋네~~ 2006.07.06 09:27
-
도아 icaptcha가 Cafe24에서 동작하지 않아 구글링을 하다가 들어와 보니 도메인 이름과 주인장 이름이 아는 이름이더군요. 잘 지내시죠? 2008.09.01 18:06
-
최호진 안녕하세요?
자알은 아니고 그럭저럭 지내고 있습니다.
가을이 되어 놀기도 좋은 날이 왔습니다!
기분도 좋아졌으면 좋겠네요. 2008.09.03 15:33
- Total
- 1,055,746
- Today
- 0
- Yesterday
- 33
- BlogAPI
- 커피
- 디버깅
- perl
- SSO
- ssh
- OpenID
- 클레로덴드럼
- TCP/IP
- 구근
- 덴드롱
- Tattertools plugin
- 킹벤자민
- 수선화
- writely
- JavaScript
- 퀴즈
- SVN
- Linux
- tattertools
- 오픈소스
- VIM
- 대화
- 식물
- Subversion
- url
- macosx
- 벤자민
- nodejs
- MySQL