책도 읽고, 영화도 보고, 그리고 일상적인 생각을 쓰고. 이 모든 것을 음악을 들으며.

Recent Comments

2015년 3월 8일 일요일

스캔 DPI에 따른 OCR 인식률 간단 비교 #3 ~ 신문

이번에는 신문으로 시험했다. 예제에 사용된 자료는 화성시 「시정소식지」(2015년 2월) 중에서 다른 소식보다 작은 글자 크기로 인쇄된 <생생메신저 '시민명예기자' 활동 시작!> 중 한 부분을 사용했다.

대체로 지난 두 번의 시험 결과와 크게 차이는 없지만, 특이한 것은 기사 맨 아랫줄의 '참여예산방'의 홈페이지 링크의 영문이 100DPI에서는 제대로 인식이 안 되었다. 이것은 ABBYY FineReader 11에서도 마찬가지였으며, 인식 언어를 [영어]로만 지정해야 제대로 인식했다. 그러나 이때는 인식 언어를 [영어]로만 지정했기 때문에 한글은 인식 못 한다. 이러한 점으로 미루어 한글과 영어 혼용으로 인식할 때 영어의 인식률이 조금 떨어질 수도 있는 것 같다. 참고로 ABBYY FineReader 12에서는 한글과 일본어 조합으로 인식하면 일본어를 아예 인식 못 하는 버그가 있었다. OCR만을 고려한다면 300DPI 정도면 충분하다는 생각이 든다.

2017년 11월 18일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI로 스캔한 신문 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다.

이 리뷰는 2015년 3월 8일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2015년 3월 5일 목요일

스캔 DPI에 따른 OCR 인식률 간단 비교 #2 ~ 불교경전

지난 번 「스캔 DPI에 따른 OCR 인식률 간단 비교 #1 ~ 소설책」 비교에 이어 이번에는 좀 낡고 글씨가 작은 『불교경전』의 한 페이지를 시험했다.

인쇄된 글자 크기가 크고 비교적 새책인 지난번 비교 때와는 달리 글씨가 작은 책이라 그런지 전체적으로 DPI가 높을수록 좋은 인식률을 보여준다.

첫 줄의 '많은'의 '은'을 '온'으로 인식한 것은 맨 마지막 사진에서 보듯 인쇄 상태가 썩 좋지 않기 때문에 오히려 '온'으로 인식한 것을 옳다고 봐야 한다면, 150DPI에서 '은'으로 인식한 것은 오류로 봐야 할 것 같다. 위 사진의 통계에는 이 의견을 반영하지는 않았지만 말이다. 그러나 '만족할 줄 앎'의 '앎'은 인쇄에 문제가 없었다. 고로 '앎'을 유일하게 제대로 인식한 1000DPI에서는 띄어쓰기 1회의 오류를 제외하고는 맞춤법은 100% 정확했다고 봐도 무방하다. Abbyy Finereader 도움말에 따르면 글자가 작게 인쇄된 책은 600DPI 스캔을 권장하는데, 그 말이 틀린 것은 아니다.

2017년 11월 17일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다. 흥미롭게도 띄어쓰기 오류 부분에서 12버전보다 못한 결과가 나왔다.

이 리뷰는 2015년 3월 5일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2015년 3월 3일 화요일

스캔 DPI에 따른 OCR 인식률 간단 비교 #1 ~ 소설책

복합기 평면 스캐너로 스캐한 문서의 해상도 150DPI, 300DPI, 600DPI, 1000DPI에 따른 OCR(ABBYY FineReader 12) 인식률을 간단하게 비교해 봤다. OCR에 사용한 이미지는 스캔 후 ScanTailor 보정(기울기 보정 및 텍스트 영역 선택)만 거치고 포토샵 보정은 하지 않았다. 본문에 사용한 예제는 을유문화사의 「을유세계문학전집」 중 에밀 졸라의 『꿈』의 한 페이지이며 스캐너에 따라, 그리고 스캔 옵션에 따라 각각 결과물이 다를 것이기에 그저 재미 삼아 참고 자료로 보면 될 듯싶다.

뜻밖에 150DPI에서도 꽤 좋은 인식률을 보여주었으며 보다시피 일반적인 소설책은 300DPI 정도면 OCR 작업에 무난 한 것으로 보인다. 그러나 난 첫 번째 사진과 같은 스캔 옵션에서 300DPI와 600DPI의 스캔 속도에 차이가 없어서 600DPI로 스캔한다. 참고로 책 본문의 "자신의 모습을 보는 듯도 했다."에서 '듯'을 '둣'을 인식하는 오류는 가장 빈번한 오류 중 하나이며, "대한공포로끊임없이"를 11버전에서 인식해도 여전히 띄어쓰기는 되지 않았다.

비교적 새책이고 인쇄 상태도 좋으며 글자 크기도 큰 편이기 때문에 DPI에 따른 OCR 인식률에 별 차이가 없는 것 같다. 다음번엔 좀 오래되고 글씨도 작은 책을 구해서 다시 한번 시험해 봐야 할 것 같다.

2017년 11월 17일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다. Abbyy FineReader 11 및 12 버전에서 가장 빈번하게 틀리는 ''을 14 버전은 ''으로 정확하게 인식했다.

이 리뷰는 2015년 3월 3일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

Category

관심 사용자

Recent Comments

Blog Archive