2023/08/04

ABBYY FineReader 16 OCR 간단 리뷰

ABBYY FineReader 16 OCR 간단 리뷰

소리소문없이(?) 출시된 ABBYY FineReader 16

OCR 프로그램 중 인식률이 가장 우수하다고 생각되는 ABBYY FineReader의 새 버전이 나왔다고 해서 인식 속도와 한국어 인식 성능을 간단하게 테스트해봤다.

ABBYY FineReader 16 업데이트 및 개선 사항은 ReTIA 홈페이지 문서를 참고하고, 해당 문서에 따르면 한국어 정확도가 98%까지 향상되었다고 하는데, (버전 11부터 사용해 온) 경험상 과거 버전도 (300dpi급 이상의) 품질이 좋은 이미지에선 (띄어쓰기 오류를 제외하면) 얼추 그 정도 인식률은 되는 것 같다.

순수 한국어만 있는 이미지 문서에선 띄어쓰기를 제외하면 딱히 나무랄 것이 없는 것이 ABBYY FineReader의 한국어 인식 성능이지만, ‘한국어+이탤릭체’, ‘한국어+일본어’ 같은 특별한 환경에선 여전히 문제가 있었고, 새 버전도 그런 것 같다.

ABBYY FineReader 16 다운로드

ABBYY FineReader 16: 평가판 다운로드

ABBYY FineReader 15 vs 16: #1 OCR 인식 속도

ABBYY FineReader 16 OCR Simple Review

1,080P 해상도 규격의 태블릿에서 캡처한 (1,434개 이미지, 파일 크기 579MB) 전자책 한 권을 15버전과 16버전으로 OCR 작업을 수행했다(인식 언어: 한국어 및 영어, CPU: Ryzen 3 5300U).

ABBYY FineReader 16 OCR Simple Review

ABBYY FineReader 15 간단한 리뷰」를 보면 ABBYY FineReader 14버전에서 15버전으로 업데이트되면서 인식 속도가 향상되었지만, ABBYY FineReader 16버전은 15버전에 비해 인식 속도가 떨어졌다.

ABBYY FineReader 15 vs 16: #2 결과물 크기

ABBYY FineReader 16 OCR Simple Review

이번엔 ‘#1 OCR 인식 속도’ 테스트에서의 PDF 결과물 파일 크기를 비교해봤다.

결과물은 설정에 따라 총 3개의 PDF를 생성했는데, 각각 압축, 해상도 변환 등을 사용하지 않은 무손실(위의 우측 사진 설정 참고), 그리고 [MRC 압축 사용]만 적용했을 때, 그리고 [ABBYY Precise Scan]까지 적용했을 때이다.

ABBYY FineReader 16 OCR Simple Review

무손실, 즉 원본에 가장 가깝게 저장했을 때의 파일 크기 차이가 거의 두 배나 난다. 버전 16은 원본 크기 579MB보다 조금 작은 정도에 불과했지만, 버전 15는 원본 크기의 절반에 가깝다. 혹시나 해서 (테스트에 사용한 이미지를 사용해) 예전에 만들어 놓은 PDF의 파일 크기를 확인해 보니 271MB이다. 이 파일도 버전 15를 사용해 무손실 PDF로 저장한 것이지만 가독성 향상을 위해 [이미지 편집]에서 LEVEL을 적용해서 오늘 것과는 파일 크기가 살짝 다르다.

[MRC 압축 사용]과 [ABBYY Precise Scan] 버전의 결과물 파일 크기는 버전 15보다 버전 15가 조금 더 작다.

ABBYY FineReader 15 vs 16: #3 결과물 품질

ABBYY FineReader 16 OCR Simple Review

PDF 결과물 중 무손실 PDF를 PDF 뷰어에서 불러온 다음 확대한 화면을 캡처해서 비교해 봤다. FHD 해상도의 모니터에서 봤을 때 ‘두 번째’라는 글자가 화면 가득 찰 때까지 확대했으며, 두 PDF의 문서 크기가 달라 확대 배율은 각각 달랐다.

상식적으로 파일 크기가 큰 16버전의 결과물이 더 좋을 것이라 예상할 수 있지만, (버전 16의 결과물보다 절반 크기인) 15버전의 결과물 품질이 더 좋았고, 그만큼 원본 이미지에 더 가깝다고 볼 수 있다.

ABBYY FineReader 16 OCR Simple Review

하지만, [MRC 압축 사용] PDF의 결과물은 사뭇 다르다. ‘두 번째’ 중 ‘째’ 글자에서 보듯 전반적으로 버전 15보다 버전 16의 결과물이 더 뚜렷하다.

ABBYY FineReader 16 OCR Simple Review

(Adobe Acrobat의 ‘Clearscan’과 비슷한 기술인) [ABBYY Precise Scan]을 사용했을 때도 버전 15보다 버전 16의 글자가 더 뚜렷하고 가독성도 좋다.

ABBYY FineReader 15 vs 16: #4 ‘한국어+일본어’ 및 이탤릭체 오류

ABBYY FineReader 16 OCR Simple Review
ABBYY FineReader 16 OCR Simple Review

‘한국어+일본어’ 혼용 OCR 인식에서 ‘ㅈ’, ‘ㅋ’, ‘ㄱ’ 등이 분리되어 인식되는 (예: 자식 -> ㅈㅏ식, 사람 -> ㅅㅏ람) 자음 오류는 여전했다. 꽤 오래된 버그인데, 개선되지 않고 있다.

ABBYY FineReader 16 OCR Simple Review
ABBYY FineReader 16 OCR Simple Review

또한 ‘한국어+영어’ 혼용 OCR 인식에서 (주로 학명 표기에 사용되는) 이탤릭체를 인식 못하는 오류도 여전했다(OCR 인식 언어를 ‘영어’ 설정하면 한국어는 인식 못하는 대신 이탤릭체는 제대로 인식).

마무리

ABBYY FineReader 16은 과거 버전에서 발생했던 ‘한국어+일본어’ 혼용 OCR 인식에서 발생하는 자음 분리 현상과 ‘한국어+영어’ 혼용 OCR 인식에서 이탤릭체를 인식하지 못하는 오류는 여전하다. 한국어만 있는 이미지 문서의 경우 이미 12버전(?)부터 훌륭한 인식률을 보여줬다는 점에서 (한국어 OCR 인식 성능만 놓고 보면) 버전 16은 조금 실망스럽다.

또한, ABBYY FineReader 16은 15 버전에 비해 OCR 인식 속도, 그리고 무손실 PDF 결과물의 품질이 떨어진다. 하지만, MRC 압축과 ABBYY Precise Scan의 결과물 품질은 눈에 띄게 향상되었다는 점에서 MRC 압축이나 ABBYY Precise Scan 압축 포맷을 주로 사용하는 사용자는 업데이트할만한 하다. 반면에 무손실/무압축 PDF 저장을 선호하는 사람은 17 버전을 기다려야 할지도 모르겠다.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요