한컴오피스 2020 OCR 한국어 인식률은 어느 정도일까?
한OCR보다 더 기대되는 Clova OCR
「빠른 OCR 인식 속도가 돋보이는 ABBYY FineReader 15 간단한 리뷰」를 작성할 때는 몰랐는데, 아르미 이후 명맥이 끊겼던 것으로 여겨졌던 한국의 독자적인 OCR 기술을 네이버에서 개발 중이란 소식을 알게 되었다. 이름하여 인공지능 딥러닝에 기반한 클로바 OCR(Clova OCR). 구글링하면 클로바가 중국을 제치고 세계 최고의 인식률을 기록했다는 기사를 비롯해 클로바 OCR의 선전 기사가 수두룩하게 터져 나온다. 아직 Abbyy FineReader 같은 제품으로 상용화는 안 된 것으로 보이지만, 한컴오피스 2020에 새로 추가된 OCR 프로그램인 ‘한OCR’의 인식률을 간단하게 테스트하면서 Clova OCR도 비교해봤는데, ABBYY FineReader 14보다 더 뛰어난 인식률을 보여줌으로써 엄청난 기대감을 품게 했다.
하는 짓을 보면 별로 정이 안 가는 네이버지만, 그래도 몇몇 분야에서는 일을 제대로 하긴 하나 보다. 하긴, 각종 블로그를 통해 홍수처럼 쏟아져 나오는 바이럴 마케팅 글들을 확실하게 걸러내려면 뛰어난 OCR 기술이 필수적이긴 하다. 아마 이런 이유로 그렇게 열을 내어 OCR 기술을 개발한 것일지도 모르겠다. 일단, 한국 사람은 뚜렷한 목적이 생기면 뭐든지 해내기 마련이지 않은가.
아무튼, 훗날 Clova OCR이 어떤 형태로 우리에게 정식으로 선을 보일지 궁금하다. 중국처럼 무료로 풀어주려나?
<궁금한 사람은 한컴오피스 2020 체험판을 사용하자> |
한컴오피스 2020 OCR 테스트 1
간단한 한국어 OCR 인식률 테스트에 사용한 이미지는 『북한문학전집1(천변풍경), 서울출판사, 박태원 지음』의 한 페이지를, 그중에서도 일부러 화질이 매우 열악한 이미지를 선택했다.
<테스트 1에 사용한 이미지> |
<흐릿한 이미지임에도 한국어 인식률은 우수하다> |
한OCR과 Clova OCR는 한 개의 오탈자가 나왔고, ABBYY FineReader 14는 두 개의 오탈자가 나왔다. 한국어 인식률에서만큼은 세 가지 제품 모두 비슷하다고 볼 수 있다. 그런데 이 테스트 결과에서 흥미로운 점을 하나 발견했다. 공교롭게도 한OCR과 Clova OCR의 인식 오류 글자, 그리고 그 인식 오류 결과(두 제품 다 ‘하옇든’을 ‘하떻든’으로 인식했다)까지 일치했다. 이뿐만 아니라 문서 통계의 글자수(공백 포함 및 공백 제외 모두)까지도 일치했다. 단지 우연의 일치일까? 이 결과만을 놓고 보면 한OCR이 Clova OCR의 기술을 채용한 것은 아닌가 하는 의심이 든다.
<달랑 한 장만 작업 가능?> |
<기대되는 Clova OCR의 데모 페이지> |
한컴오피스 2020 OCR 테스트 2
<테스트 2에 사용한 이미지> |
<Clova OCR이 가장 우수하다> |
그래서 ABBYY FineReader도 인식률이 떨어지는 ‘한국어 + 영어 이탤릭체(학명)’가 포함된 문서를 테스트해봤다. 한스 테비슨의 『걷는 고래』 종이책을 600DPI로 스캔한 이미지다.
결과는 세 가지 제품 중 Clova OCR이 압도적으로 우수했다. 그 뒤는 ABBYY FineReader 14, 그리고 한OCR 순서인데, 한OCR 같은 경우는 한자와 영문은 한 글자도 인식하지 못했다. 다른 이미지를 테스트해보니 한OCR은 영어만 나열한 문장은 잘 인식했는데, 숫자(혹은 한국어)와 영어가 가깝게 붙어 있는 단어는 제대로 인식하지 못했다(예, 약40Km -> 약40%&0).
한컴오피스 2020에 탑재된 OCR 엔진의 정체는?
<HNC 폴더 안에 있는 ocr.dll 파일 속성 정보> |
HNC 디렉터리 안에는 ocr.dll 파일이 있고, 이 파일의 속성 정보는 Solid Framework라는 제품이다. 이 제품 이름으로 검색하면 Solid Documents라는 회사와 연결되는데, 이 회사는 Solid Converter PDF라는 OCR 프로그램을 개발 및 판매하고 있다. 한OCR이 Solid Framework 엔진을 탑재했는지 확인하고자 Solid Converter PDF 평가판을 설치해 봤다. 한OCR이 설치된 디렉터리 안에 있는 ocr.dll 버전(9.2.8072.1)과 근접한 9.1.5565.761 버전은 실행 오류 때문에 테스트할 수 없었고, v10 평가판을 설치해 봤는데, 맙소사 OCR 언어에서 ‘한국어’를 지원하지 않는다. 그런데도 인터페이스 언어는 한국어를 지원한다! 아마 한컴오피스 2020에 포함된 OCR 엔진은 Solid Framework의 OCR 엔진을 기반으로 한국어 언어만 추가한 것으로 보인다.
편의성 제로, 이걸 실전에 사용하라고?
한OCR은 초기 제품이라 그런지 몇 번 사용한 것만으로도 이런저런 단점이 단박에 드러날 정도로 미흡한 OCR 프로그램이다. 그중에서도 가장 치명적인 단점은 OCR에 사용된 이미지 파일 크기와는 상관없이 PDF 결과물 파일 크기가 27.1MB로 고정된다는 점이다. ABBYY FineReader 같은 경우 이미지 손실 없는 PDF로 저장해도 PDF 크기는 원본 이미지 크기와 비교해서 큰 차이가 나지 않는다. 한OCR은 도대체 PDF 안에 무엇을 가득 담았길래 695KB의 이미지를 27.1MB로 부풀려 놓는 것일까? 이스트라도 첨가하여 발효라도 시키는 것일까?
<한OCR이 나은 배보다 배꼽이 더 큰 PDF 파일> |
두 번째 단점은 한 번에 하나의 이미지만 OCR이 가능하다는 점이다(아니면 내가 사용법을 모르던가). 고로 나처럼 스캔한 종이책 이미지를 전자책으로 탈바꿈시키는 것은 불가능하지는 않지만, 엄청난 수고와 시간을 들여야 한다(일일이 한 페이지씩 작업한 다음 그것을 합치면 된다). 차라리 OCR 기능을 Adobe Acrobat처럼 한PDF에 통합했으면 어땠을까 하는 생각이다.
<한OCR의 PDF 결과물(우측)> |
세 번째 단점은 PDF 결과물의 가독성이다. 자세한 것은 「ABBYY FineReader PDF 저장 옵션 중 [저장 모드]에 대하여」를 보면 알겠지만, ABBYY FineReader, OmniPage, Adobe Acrobat, Readiris 등 유명한 유료 OCR 프로그램은 OCR 완료한 이미지를 PDF로 저장할 때 레이어 모드를 적용한다. 즉, 최상위 레이어에는 원본 이미지를, 그리고 그 아래 레이어에는 인식한 텍스트를 심어놓는 방식이다. 고로 사람이 읽을 때는 원본 이미지를 그대로 보고, 드래그 앤드 드롭으로 텍스트를 선택하거나 본문을 검색할 때는 텍스트 레이어를 활용하는 방식이다. 이 방식은 OCR 과정 중 오탈자가 발생하더라도 사람은 원본 이미지를 읽기 때문에 독서에 지장이 없다는 장점이 있다. 텍스트를 최상위 레이어로 올려놓는 반대의 구조는 ─ Epub 문서를 읽는 듯한 ─ 우수한 가독성을 제공하지만, OCR 과정 중 발생한 오탈자도 그대로 노출된다는 단점이 있다(사진 7 참고).
그런데 한OCR은 이런 선택 없이, ─ 그 엄청난 파일 크기에도 불구하고 ─ 무조건 텍스트 레이어만 존재하는 것으로 보인다. 고로 오탈자가 그대로 드러난다.
총평
결과적으로 한OCR은 오랫동안 소프트웨어를 개발해 온 한컴의 명성에 어울리지 않는 실망스러운 제품이다. 한국어 인식률은 우수하지만, 한국어 단어와 영어단어가 붙어 있는 문장의 경우는 인식률이 매우 떨어진다. 사무 환경에 따라 다르겠지만, 보통은 한국어와 영어가 혼용된 문서가 많다는 점에서 한OCR은 현장에서 사용하기에는 무리이다. 그리고 기능도 부실하다. 달랑 OCR 작업한 것을 문서로 저장하는 기능뿐이다. 아무리 초기 버전이라 하더라도 개발 과정에서 다른 OCR 프로그램을 벤치마킹하지 않았을 리는 없었을 텐데, OCR 외의 다른 부가 기능이 초토화된 것을 보면 뭔가 만들다 만 듯한 상태 같다. 뭐가 그리 급했을까? 혹시 급부상하는 네이버의 Clova OCR를 의식해서?
한컴이 자체적으로 OCR 엔진을 개발할 여력이 없다면, 차라리 Clova OCR 엔진을 채용했으면 좋았으면 어떨까 하는 개인적인 바람이다. 물론 난 두 회사가 어떤 관계인지 알지 못하고 관심도 없지만, 탐이 날 정도로 우수한 Clova OCR의 인식률을 한컴오피스를 통해 경험할 수 있다면 꽤 근사한 전자책 제작이 될 것 같다.
좋은 리뷰입니다. abbyy 만 사용중인대 클로버상용을 기대 합니다요.
답글삭제네. 개인적인 바람으론 현재의 Abbyy 인터페이스에 한국어 인식 엔진만 Clova로 교체되면 딱 좋겠다는 생각이 드네요. 물론 어림도 없는 이야기지만 말이죠.
삭제