2017/10/02

ABBYY FineReader 12, 14 한자 인식 성능 향상시키는 방법

ABBYY FineReader 12, 14 한자 인식 성능 향상시키는 방법

<ABBYY FineReader 11은 '한국어'만으로도 한자 인식 가능>

'한국어' + 타언어 인식에 취약한 ABBYY FineReader

 ABBYY FineReader는 한국어 인식 능력만 보면 다른 OCR 프로그램에 비해 훌륭한 성능을 보여주지만, 한국어 문서에 간간이 영어나 한자가 혼용된 이미지를 인식할 때 한글을 제외한 영어나 한자 인식 능력에는 아쉬운 점을 자주 보여준다. 지난 글「뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰」 에서도 보았듯 한국어 본문에 영어 이탤릭체가 추가된 문서에서 ABBYY FineReader는 영문 이탤릭체를 거의 인식하지 못했다. 반면에 OmniPage, Readiris, Acrobat은 영문 이탤릭체도 거의 인식하는 괜찮은 성능을 보여주었다. 영어와 한자뿐만이 아니다. ABBYY FineReader 버전 12의 경우 한국어 본문에 섞인 일본어를 인식하지 못하는 (버전 11에서는 발생하지 않은) 버그가 있었고, 다행히 버전 14에서는 같은 문제가 발생하지 않았다.

<ABBYY FineReader 14의 '한국어'는 한자 인식 성능이 떨어진다>

한자 인식 성능을 높이는 팁

 이렇게 한국어 본문에 영어가 혼합된 경우 영어의 인식률을 높이는 방법을 아직 찾지는 못했지만, 한자는 한자 인식 성능을 높이는 간단한 방법이 있다. 프로그램 인터페이스를 한국어로 설치하면 인식 언어가 기본 값으로 ‘한국어 및 영어’로 되어 있는데, 이것을 ‘한국어; 중국어 번체 및 영어’로 변경하면 한자도 잘 인식된다. OmniPage, Readiris, Acrobat는 인식 언어가 ‘한국어, 영어’로만 되어 있어도 한자 인식에는 특별한 문제가 없었고, 본문 첫 번째 스크린샷에서도 볼 수 있듯 ABBYY FineReader 11 역시 인식 언어 ‘한국어 및 영어’에서도 한자 인식이 가능하다. 한편, ABBYY FineReader 12, 14 버전의 인식 언어 ‘한국어’가 아예 한자 인식을 지원하지 않는 것도 아니다. 다만, 성능이 버전 11에 비해 많이 떨어졌다고 볼 수 있다. 그래서 앞에서 언급한 편법으로 한국어 본문에 포함된 한자의 인식 성능을 개선할 수 있다.

<ABBYY FineReader 14는 '중국어'를 추가해야 제대로 한자 인식>

이러한 점만 개선된다면...

 ABBYY FineReader 14의 한국어 인식 능력은 확실히 개선된 점이 보이지만, 한국어 본문에 포함된 영어 인식 능력은 여전히 타제품과 비교하면 확연히 떨어진다. 다음 버전이나 혹은 업데이트로 이 점만 보완된다면, PDF 뷰어 및 PDF 편집 프로그램이었던 ABBYY PDF Transformer와 통합된 ABBYY FineReader 14는 OCR 편집과 PDF 편집을 하나의 플랫폼에서 세밀하게 완성할 수 있는 독보적인 프로그램이 될 것으로 보인다.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요