2015/03/05

, ,

스캔 DPI에 따른 OCR 인식률 간단 비교 #2 | 불교경전

스캔 DPI에 따른 OCR 인식률 간단 비교 #2 | 불교경전

지난 번 「스캔 DPI에 따른 OCR 인식률 간단 비교 #1 ~ 소설책」 비교에 이어 이번에는 좀 낡고 글씨가 작은 『불교경전』의 한 페이지를 시험했다.

인쇄된 글자 크기가 크고 비교적 새책인 지난번 비교 때와는 달리 글씨가 작은 책이라 그런지 전체적으로 DPI가 높을수록 좋은 인식률을 보여준다.

첫 줄의 '많은'의 '은'을 '온'으로 인식한 것은 맨 마지막 사진에서 보듯 인쇄 상태가 썩 좋지 않기 때문에 오히려 '온'으로 인식한 것을 옳다고 봐야 한다면, 150DPI에서 '은'으로 인식한 것은 오류로 봐야 할 것 같다. 위 사진의 통계에는 이 의견을 반영하지는 않았지만 말이다. 그러나 '만족할 줄 앎'의 '앎'은 인쇄에 문제가 없었다. 고로 '앎'을 유일하게 제대로 인식한 1000DPI에서는 띄어쓰기 1회의 오류를 제외하고는 맞춤법은 100% 정확했다고 봐도 무방하다. Abbyy Finereader 도움말에 따르면 글자가 작게 인쇄된 책은 600DPI 스캔을 권장하는데, 그 말이 틀린 것은 아니다.

2017년 11월 17일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다. 흥미롭게도 띄어쓰기 오류 부분에서 12버전보다 못한 결과가 나왔다.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요