빠른 OCR 인식 속도가 돋보이는 ABBYY FineReader 15 간단한 리뷰
특별히 눈에 띄는 새 기능은 안 보이는 ABBYY FineReader 15
한글 OCR 인식률이 가장 높다고 정평이 난 ABBYY FineReader가 쥐도 새도 모르게 15로 업데이트되었다. 버전 14를 출시했을 땐 ABBYY FineReader 한국 총판인 레티아(ReTIA)에서 라이선스를 상품으로 주는 ‘리뷰 이벤트’를 했었는데, 이번에는 없나 보다. 당시 리뷰 이벤트에 당첨되어 14 라이선스를 받았던 기분 좋은 경험을 했던 나로서는 조금은 아쉽다. 사실 라이선스를 보관한 메일함이 어찌 된 일인지 삭제되는 바람에 라이선스를 잃어버리긴 했지만(염치 불고하고 라이선스 키 좀 다시 알려달라고 메일을 보냈지만, 예상대로 깜깜무소식), 윈도우 재설치만 하지 않는다면야 사용하는 데 문제는 없다.
버전 12에서 버전 14로 업데이트될 때처럼 뭔가 눈에 띄는 새 기능은 없는 것 같고, 대신 기존의 PDF 편집 기능을 강화하고 전체적으로 최적화하는 수준에서 업데이트가 이루어진 것 같다. 사정이 이러하니 ABBYY FineReader의 PDF 편집과 PDF 리더 기능은 전혀 사용하지 않는 나로서는 감흥을 일으킨 만 한 버전은 아니다. 그렇지만 OCR 프로그램의 새 버전이라면 응당 기대되기 마련인 OCR 인식률의 향상과 최적화는 ─ 스캔한 책을 OCR 작업을 거쳐 PDF로 출력하는 ─ 나만의 전자책(PDF)을 제작하여 책을 읽는 나로서는 지나치기 어려운 호기심을 자극한다. 참고로 ABBYY FineReader로 제작한 PDF는 PDF-XChange Editor를 사용해 '차례'를 추가하고 '여백'을 조정한다.
<테스트에 사용한 제품들> |
그래서 OCR 속도를 벤치마크하고 OCR 인식률을 다른 버전과 간략하게, 그리고 매우 주관적으로 비교해보았다. 테스트에 사용한 이미지는 얼마 전에 스캔한 『절대지식 일본고전』이라는 책 중에서 100페이지(600dpi)를 선별했다. 물론 다른 책들도 있지만, 굳이 『절대지식 일본고전』을 선택한 이유는 OCR 언어를 ‘한국어 + 일본어’ 조합으로 지정하면, 특정 문자가 ‘ス]’ 이런 식으로 특정 패턴의 인식 오류를 일으키는 버그를 개선했는지 알아보기 위해서다.
OCR 인식 속도 비교
<scantailor 공정을 거친 이미지라 [이미지 사전처리]는 OFF> |
<OCR 작업 시간은 [이미지 열기]부터 [처리 완료됨]까지 잼> |
내 노트북 A10-4600M APU(4코어)로 600dpi 이미지 100장을 OCR 완료하는데 걸리는 시간을 측정했다. 가장 최신 버전인 ABBYY FineReader 15가 가장 빠른 작업 속도를 보인 것은 어찌 보면 당연한 결과지만, 12버전이 14버전보다 더 빠른 인식 속도를 보인 점은 놀라운 결과다.
<OCR 인식 속도 결과> |
사실 2년 전에 작성한 「뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰」에선 ABBYY FineReader 14버전이 12버전보다 빨랐다. 그사이에 어떤 변화가 있었던 것일까? 14버전이 업데이트되면서 느려진 것일까? 아니면 테스트에 사용한 APU가 A6-4400M(2코어)에서 A10-4600M(4코어)로 업그레이드되어서 그런 것일까? 실로 놀라운 역전이지만, 나로서는 그 원인을 밝혀낼 수가 없어 아쉽기만 하다.
Readiris 17버전도 꼽사리로 테스트에 참여했는데, Readiris 17은 OCR 인식에는 오직 1코어만 사용한다는 점(이미지 로딩, 이미지 처리 등 전체 작업에는 멀티 코어 활용)을 고려하면 상당한 선전을 보여주었다. 만약 Readiris 제품이 OCR 작업에도 멀티 코어를 활용한다면 OCR 속도만큼은 가장 빠른 제품이 될 것이다. 달리 말하면 ABBYY FineReader 제품의 OCR 인식 속도는 개선의 여지가 그만큼 많다는 것이다. 주로 영문 이미지를 인식하거나 한국어 인식률이 떨어져도 상관없고 듀얼 코어 이하 사용자는 Readiris 17 제품도 좋은 선택이다.
OCR 언어 ‘한국어 + 일본어’에서의 인식률
<'한국어 + 일본어' 혼용 시 이런 류의 인식 오류가 나타난다> |
역시 예전 버그 그대로다. OCR 언어를 ‘한국어 + 일본어’로 지정하면 ‘지’ 글자를 ‘ス]’로, ‘자’ 글자를 ‘スト’로, ‘세’ 글자를 ‘人II’로 인식하는 등 특정 문자의 인식률이 매우 떨어진다. 이 문제는 14버전에서도 마찬가지고, 오랜만에 사용한 12버전에서는 나타나지 않았다(한자 인식률을 높이려면 OCR 언어에 중국어를 추가해주면 된다). 또한, OCR 언어를 ‘한국어 + 영어’를 사용할 때 영어 이탤릭체를 제대로 인식하지 못하는 문제는 12, 14, 15버전 모두 여전하다. OCR 언어를 한국어만 사용할 때 한자 인식률이 현격히 떨어지는 문제는 14, 15버전 마찬가지고, 12버전은 앞의 두 버전보다는 조금 양호한 편이다. 하지만, 이미지 품질이 좀 떨어지는 한글 문서나 한국어만 있는 문서를 인식할 땐 버전 15가 가장 괜찮았다. 그리고 'XX71년'에서 '71년'을 '기년'으로 인식하는 오류는 14버전과 다름없다.
결과적으로 OCR 인식률은 크게 나아진 점은 모르겠다. ‘한국어 + 타 언어’ 혼용 시 인식률이 떨어지는 문제는 여전하다. 이것은 한국어에만 해당하는 문제일 수도 있어 개선이 안 되는 것일지도 모르겠다. 물론 이런 인식 오류들은 특정 스캐너에서 스캔한 이미지에서만 발생하는 사소한 문제일 수도 있다.
로봇이 지녀야 할 필수 기술, OCR
ABBYY FineReader 15버전을 조금 사용해보니 조금은 실망스럽다. 속도만 조금 나아졌을 뿐 OCR 인식 버그는 여전하다. 이번 테스트 때문에 오랜만에 12버전을 사용해봤는데, 일본어나 한자가 많은 문서는 최신 버전보다는 12버전을 사용하는 것이 괜찮아 보인다. 15 버전에 새로 추가된 PDF 편집 기능이 꼭 필요한 사람이 아니라면 14 버전 사용자는 굳이 업그레이드할 필요는 없을 것 같다. 대충이나마 테스트를 해놓고 보니, ABBYY FineReader 11버전부터, 그리고 다른 OCR 제품도 틈틈이 써온 한 사람으로서 한국어 OCR 인식률 향상은 기술적 한계에 부딪힌 것일지도 모르겠다는 암담한 생각도 든다.
4<OCR 언어를 '영어'로만 지정하면 이탤릭체도 문제없다> |
|
한편으론, 요즘 OCR 업계는 한국어보다는 중국어 인식률 향상에 더 신경 쓰는 것 같기도 한데, 중국의 시장 규모도 규모지만, 한국과는 달리 중국은 자체적으로 OCR 엔진을 개발하는 회사가 꽤 있다(바이두도 그중 하나). 그래서 경쟁이 붙은 것인지도 모르겠다. 내가 예전에 중국산 OCR 프로그램을 블로그에 한 번 소개한 적도 있는 것 같은데 그중에는 무료로 배포하는 회사도 있다(아쉽게도 중국어와 영어만 지원하고 PDF 출력 기능은 없었다). 아무리 좋게 봐도 복잡하고 오묘하게 생긴 문자가 중국어임에도 유명 제품 못지않게 중국산 OCR 프로그램의 인식률은 꽤 높다. 다만, 중국산 OCR 프로그램은 PDF 출력이나 교정 같은 부가기능과 OCR 인식 언어 지원이 많이 부족하다. 한국 같은 경우는 어떻게 돌아가는지 잘 모르지만, 최근에 출시한 한글 2020 제품에 처음으로 OCR 기능이 추가되었다고 한다.
이럴 땐 남이 하는 것은 무엇이든 따라 해 보려고 하는 중국의 모방 정신이 부럽기도 하다. 한국어 OCR 인식률을 획기적으로 개선하는 방법은 OCR 엔진 개발에 한국어를 가장 잘 아는 한국인이 참여하는 것이 최선일 것 같은데, 중국어보다 작은 한국어 시장을 위해 누가 그런 수고와 비용을 마다할까?
끝으로 미래에 사람을 닮은 로봇을 완성하려면 OCR 기능은 필수라고 본다. 로봇이 사람과 어울려 사회생활을 하려면 글자를 인식할 줄 알아야 하는데 그 기능의 초석이 되는 기술이 바로 OCR이 아니고서야 무엇이겠는가?
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요