스캔 DPI에 따른 OCR 인식률 간단 비교 #1 | 소설책
복합기 평면 스캐너로 스캐한 문서의 해상도 150DPI, 300DPI, 600DPI, 1000DPI에 따른 OCR(ABBYY FineReader 12) 인식률을 간단하게 비교해 봤다. OCR에 사용한 이미지는 스캔 후 ScanTailor 보정(기울기 보정 및 텍스트 영역 선택)만 거치고 포토샵 보정은 하지 않았다. 본문에 사용한 예제는 을유문화사의 「을유세계문학전집」 중 에밀 졸라의 『꿈』의 한 페이지이며 스캐너에 따라, 그리고 스캔 옵션에 따라 각각 결과물이 다를 것이기에 그저 재미 삼아 참고 자료로 보면 될 듯싶다.
뜻밖에 150DPI에서도 꽤 좋은 인식률을 보여주었으며 보다시피 일반적인 소설책은 300DPI 정도면 OCR 작업에 무난 한 것으로 보인다. 그러나 난 첫 번째 사진과 같은 스캔 옵션에서 300DPI와 600DPI의 스캔 속도에 차이가 없어서 600DPI로 스캔한다. 참고로 책 본문의 "자신의 모습을 보는 듯도 했다."에서 '듯'을 '둣'을 인식하는 오류는 가장 빈번한 오류 중 하나이며, "대한공포로끊임없이"를 11버전에서 인식해도 여전히 띄어쓰기는 되지 않았다.
비교적 새책이고 인쇄 상태도 좋으며 글자 크기도 큰 편이기 때문에 DPI에 따른 OCR 인식률에 별 차이가 없는 것 같다. 다음번엔 좀 오래되고 글씨도 작은 책을 구해서 다시 한번 시험해 봐야 할 것 같다.
▶ 2017년 11월 17일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다. Abbyy FineReader 11 및 12 버전에서 가장 빈번하게 틀리는 '둣'을 14 버전은 '듯'으로 정확하게 인식했다.
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요