2014/11/03

, ,

OCR 프로그램 인식 속도 간단 벤치마크

OCR 프로그램 인식 속도 간단 벤치마크

테스트에 사용한 스캔 이미지는 「ABBYY FineReader 12 vs 11 - OCR 속도 단순 비교」에 사용된 이미지를 그대로 사용했으며, 이미지를 불러들인 프로그램이 OCR 작업 들어가기 전에 자체적으로 이미지 보정을 하는, 즉 ABBYY FineReader의 [전처리] 설정 같은 것은 가능한 한 끄고 시험했다.

유일하게 멀티 코어 프로세서를 지원하지 않는 Acrobat이 가장 느렸다(AMD A6-4400M). 평균적으로 OminiPage 18이 인식률과 속도 면에서 상당히 좋은 모습을 보여주었으나 기타 부가적인 기능이나 편리성에서 다소 아쉬운 점이 있었다.

OminiPage 18는 OCR 작업할 때 한국어와 영어의 혼합(한자도 인식된다)은 가능하지만 한국어와 일본어의 조합은 불가능했다. 한국어와 일본어가 혼합된 이미지 문서를 한국어로만 OCR 하면 (당연히) 일본어는 인식이 안 되고 한국어만 인식이 되지만, 한국어와 일본어를 동시에 선택하면 일본어만 인식되고 한글은 전부 다 깨진다. 내가 아는 한도 내에서 일본어와 한국어 동시 OCR이 가능한 것은 ABBYY FineReader 버전 10과 11 정도이다(▶ 2017년 11월 16일 추가: ABBYY FineReader 12 버전도 한국어/일본어 혼용 인식할 때 일본어 인식이 불가능했으나 14 버전에서는 이 문제가 해결되었다).

또한, OmniPage는 무손실 PDF로 저장할 때 원본 이미지 파일 크기보다 용량이 훨씬 크게 나오는 단점이 있다. OmniPage와 ABBYY FineReader와는 달리 Acrobat은 OCR 후 사용자가 따로 교정을 할 수 없거나 불편해 보인다.

Readiris 14는 가장 빠른 OCR 속도를 보여주었지만, 이미지 해상도가 300dpi로 강제 다운되었으며(이와 관련된 설정을 아무리 찾아봐도 해결할 수가 없었다) 인식률도 고만고만했다.

▶ 2017년 11월 16일 추가: 비슷한 벤치마크를 최근에 테스트한 자료가 있다. 「뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요