책도 읽고, 영화도 보고, 그리고 일상적인 생각을 쓰고. 이 모든 것을 음악을 들으며.

Recent Comments

레이블이 OCR인 게시물을 표시합니다. 모든 게시물 표시
레이블이 OCR인 게시물을 표시합니다. 모든 게시물 표시

1/02/2020

한컴오피스 2020 OCR 한국어 인식률은 어느 정도일까?

한OCR보다 더 기대되는 Clova OCR

빠른 OCR 인식 속도가 돋보이는 ABBYY FineReader 15 간단한 리뷰」를 작성할 때는 몰랐는데, 아르미 이후 명맥이 끊겼던 것으로 여겨졌던 한국의 독자적인 OCR 기술을 네이버에서 개발 중이란 소식을 알게 되었다. 이름하여 인공지능 딥러닝에 기반한 클로바 OCR(Clova OCR). 구글링하면 클로바가 중국을 제치고 세계 최고의 인식률을 기록했다는 기사를 비롯해 클로바 OCR의 선전 기사가 수두룩하게 터져 나온다. 아직 Abbyy FineReader 같은 제품으로 상용화는 안 된 것으로 보이지만, 한컴오피스 2020에 새로 추가된 OCR 프로그램인 ‘한OCR’의 인식률을 간단하게 테스트하면서 Clova OCR도 비교해봤는데, ABBYY FineReader 14보다 더 뛰어난 인식률을 보여줌으로써 엄청난 기대감을 품게 했다.

하는 짓을 보면 별로 정이 안 가는 네이버지만, 그래도 몇몇 분야에서는 일을 제대로 하긴 하나 보다. 하긴, 각종 블로그를 통해 홍수처럼 쏟아져 나오는 바이럴 마케팅 글들을 확실하게 걸러내려면 뛰어난 OCR 기술이 필수적이긴 하다. 아마 이런 이유로 그렇게 열을 내어 OCR 기술을 개발한 것일지도 모르겠다. 일단, 한국 사람은 뚜렷한 목적이 생기면 뭐든지 해내기 마련이지 않은가.

아무튼, 훗날 Clova OCR이 어떤 형태로 우리에게 정식으로 선을 보일지 궁금하다. 중국처럼 무료로 풀어주려나?

Hancom Office 2020 OCR Korean Language Recognition Test
<궁금한 사람은 한컴오피스 2020 체험판을 사용하자>

한컴오피스 2020 OCR 테스트 1

간단한 한국어 OCR 인식률 테스트에 사용한 이미지는 『북한문학전집1(천변풍경), 서울출판사, 박태원 지음』의 한 페이지를, 그중에서도 일부러 화질이 매우 열악한 이미지를 선택했다.

Hancom Office 2020 OCR Korean Language Recognition Test
<테스트 1에 사용한 이미지>
Hancom Office 2020 OCR Korean Language Recognition Test
<흐릿한 이미지임에도 한국어 인식률은 우수하다>

한OCR과 Clova OCR는 한 개의 오탈자가 나왔고, ABBYY FineReader 14는 두 개의 오탈자가 나왔다. 한국어 인식률에서만큼은 세 가지 제품 모두 비슷하다고 볼 수 있다. 그런데 이 테스트 결과에서 흥미로운 점을 하나 발견했다. 공교롭게도 한OCR과 Clova OCR의 인식 오류 글자, 그리고 그 인식 오류 결과(두 제품 다 ‘하옇든’을 ‘하떻든’으로 인식했다)까지 일치했다. 이뿐만 아니라 문서 통계의 글자수(공백 포함 및 공백 제외 모두)까지도 일치했다. 단지 우연의 일치일까? 이 결과만을 놓고 보면 한OCR이 Clova OCR의 기술을 채용한 것은 아닌가 하는 의심이 든다.

Hancom Office 2020 OCR Korean Language Recognition Test
<달랑 한 장만 작업 가능?>
Hancom Office 2020 OCR Korean Language Recognition Test
<기대되는 Clova OCR의 데모 페이지>

한컴오피스 2020 OCR 테스트 2

Hancom Office 2020 OCR Korean Language Recognition Test
<테스트 2에 사용한 이미지>
Hancom Office 2020 OCR Korean Language Recognition Test
<Clova OCR이 가장 우수하다>

그래서 ABBYY FineReader도 인식률이 떨어지는 ‘한국어 + 영어 이탤릭체(학명)’가 포함된 문서를 테스트해봤다. 한스 테비슨의 『걷는 고래』 종이책을 600DPI로 스캔한 이미지다.

결과는 세 가지 제품 중 Clova OCR이 압도적으로 우수했다. 그 뒤는 ABBYY FineReader 14, 그리고 한OCR 순서인데, 한OCR 같은 경우는 한자와 영문은 한 글자도 인식하지 못했다. 다른 이미지를 테스트해보니 한OCR은 영어만 나열한 문장은 잘 인식했는데, 숫자(혹은 한국어)와 영어가 가깝게 붙어 있는 단어는 제대로 인식하지 못했다(예, 약40Km -> 약40%&0).

한컴오피스 2020에 탑재된 OCR 엔진의 정체는?

Hancom Office 2020 OCR Korean Language Recognition Test
<HNC 폴더 안에 있는 ocr.dll 파일 속성 정보>

HNC 디렉터리 안에는 ocr.dll 파일이 있고, 이 파일의 속성 정보는 Solid Framework라는 제품이다. 이 제품 이름으로 검색하면 Solid Documents라는 회사와 연결되는데, 이 회사는 Solid Converter PDF라는 OCR 프로그램을 개발 및 판매하고 있다. 한OCR이 Solid Framework 엔진을 탑재했는지 확인하고자 Solid Converter PDF 평가판을 설치해 봤다. 한OCR이 설치된 디렉터리 안에 있는 ocr.dll 버전(9.2.8072.1)과 근접한 9.1.5565.761 버전은 실행 오류 때문에 테스트할 수 없었고, v10 평가판을 설치해 봤는데, 맙소사 OCR 언어에서 ‘한국어’를 지원하지 않는다. 그런데도 인터페이스 언어는 한국어를 지원한다! 아마 한컴오피스 2020에 포함된 OCR 엔진은 Solid Framework의 OCR 엔진을 기반으로 한국어 언어만 추가한 것으로 보인다.

편의성 제로, 이걸 실전에 사용하라고?

한OCR은 초기 제품이라 그런지 몇 번 사용한 것만으로도 이런저런 단점이 단박에 드러날 정도로 미흡한 OCR 프로그램이다. 그중에서도 가장 치명적인 단점은 OCR에 사용된 이미지 파일 크기와는 상관없이 PDF 결과물 파일 크기가 27.1MB로 고정된다는 점이다. ABBYY FineReader 같은 경우 이미지 손실 없는 PDF로 저장해도 PDF 크기는 원본 이미지 크기와 비교해서 큰 차이가 나지 않는다. 한OCR은 도대체 PDF 안에 무엇을 가득 담았길래 695KB의 이미지를 27.1MB로 부풀려 놓는 것일까? 이스트라도 첨가하여 발효라도 시키는 것일까?

Hancom Office 2020 OCR Korean Language Recognition Test
<한OCR이 나은 배보다 배꼽이 더 큰 PDF 파일>

두 번째 단점은 한 번에 하나의 이미지만 OCR이 가능하다는 점이다(아니면 내가 사용법을 모르던가). 고로 나처럼 스캔한 종이책 이미지를 전자책으로 탈바꿈시키는 것은 불가능하지는 않지만, 엄청난 수고와 시간을 들여야 한다(일일이 한 페이지씩 작업한 다음 그것을 합치면 된다). 차라리 OCR 기능을 Adobe Acrobat처럼 한PDF에 통합했으면 어땠을까 하는 생각이다.

Hancom Office 2020 OCR Korean Language Recognition Test
<한OCR의 PDF 결과물(우측)>

세 번째 단점은 PDF 결과물의 가독성이다. 자세한 것은 「ABBYY FineReader PDF 저장 옵션 중 [저장 모드]에 대하여」를 보면 알겠지만, ABBYY FineReader, OmniPage, Adobe Acrobat, Readiris 등 유명한 유료 OCR 프로그램은 OCR 완료한 이미지를 PDF로 저장할 때 레이어 모드를 적용한다. 즉, 최상위 레이어에는 원본 이미지를, 그리고 그 아래 레이어에는 인식한 텍스트를 심어놓는 방식이다. 고로 사람이 읽을 때는 원본 이미지를 그대로 보고, 드래그 앤드 드롭으로 텍스트를 선택하거나 본문을 검색할 때는 텍스트 레이어를 활용하는 방식이다. 이 방식은 OCR 과정 중 오탈자가 발생하더라도 사람은 원본 이미지를 읽기 때문에 독서에 지장이 없다는 장점이 있다. 텍스트를 최상위 레이어로 올려놓는 반대의 구조는 ─ Epub 문서를 읽는 듯한 ─ 우수한 가독성을 제공하지만, OCR 과정 중 발생한 오탈자도 그대로 노출된다는 단점이 있다(사진 7 참고).

그런데 한OCR은 이런 선택 없이, ─ 그 엄청난 파일 크기에도 불구하고 ─ 무조건 텍스트 레이어만 존재하는 것으로 보인다. 고로 오탈자가 그대로 드러난다.

총평

결과적으로 한OCR은 오랫동안 소프트웨어를 개발해 온 한컴의 명성에 어울리지 않는 실망스러운 제품이다. 한국어 인식률은 우수하지만, 한국어 단어와 영어단어가 붙어 있는 문장의 경우는 인식률이 매우 떨어진다. 사무 환경에 따라 다르겠지만, 보통은 한국어와 영어가 혼용된 문서가 많다는 점에서 한OCR은 현장에서 사용하기에는 무리이다. 그리고 기능도 부실하다. 달랑 OCR 작업한 것을 문서로 저장하는 기능뿐이다. 아무리 초기 버전이라 하더라도 개발 과정에서 다른 OCR 프로그램을 벤치마킹하지 않았을 리는 없었을 텐데, OCR 외의 다른 부가 기능이 초토화된 것을 보면 뭔가 만들다 만 듯한 상태 같다. 뭐가 그리 급했을까? 혹시 급부상하는 네이버의 Clova OCR를 의식해서?

한컴이 자체적으로 OCR 엔진을 개발할 여력이 없다면, 차라리 Clova OCR 엔진을 채용했으면 좋았으면 어떨까 하는 개인적인 바람이다. 물론 난 두 회사가 어떤 관계인지 알지 못하고 관심도 없지만, 탐이 날 정도로 우수한 Clova OCR의 인식률을 한컴오피스를 통해 경험할 수 있다면 꽤 근사한 전자책 제작이 될 것 같다.

Share:

12/13/2019

빠른 OCR 인식 속도가 돋보이는 ABBYY FineReader 15 간단한 리뷰

특별히 눈에 띄는 새 기능은 안 보이는 ABBYY FineReader 15

한글 OCR 인식률이 가장 높다고 정평이 난 ABBYY FineReader가 쥐도 새도 모르게 15로 업데이트되었다. 버전 14를 출시했을 땐 ABBYY FineReader 한국 총판인 레티아(ReTIA)에서 라이선스를 상품으로 주는 ‘리뷰 이벤트’를 했었는데, 이번에는 없나 보다. 당시 리뷰 이벤트에 당첨되어 14 라이선스를 받았던 기분 좋은 경험을 했던 나로서는 조금은 아쉽다. 사실 라이선스를 보관한 메일함이 어찌 된 일인지 삭제되는 바람에 라이선스를 잃어버리긴 했지만(염치 불고하고 라이선스 키 좀 다시 알려달라고 메일을 보냈지만, 예상대로 깜깜무소식), 윈도우 재설치만 하지 않는다면야 사용하는 데 문제는 없다.

버전 12에서 버전 14로 업데이트될 때처럼 뭔가 눈에 띄는 새 기능은 없는 것 같고, 대신 기존의 PDF 편집 기능을 강화하고 전체적으로 최적화하는 수준에서 업데이트가 이루어진 것 같다. 사정이 이러하니 ABBYY FineReader의 PDF 편집과 PDF 리더 기능은 전혀 사용하지 않는 나로서는 감흥을 일으킨 만 한 버전은 아니다. 그렇지만 OCR 프로그램의 새 버전이라면 응당 기대되기 마련인 OCR 인식률의 향상과 최적화는 ─ 스캔한 책을 OCR 작업을 거쳐 PDF로 출력하는 ─ 나만의 전자책(PDF)을 제작하여 책을 읽는 나로서는 지나치기 어려운 호기심을 자극한다. 참고로 ABBYY FineReader로 제작한 PDF는 PDF-XChange Editor를 사용해 '차례'를 추가하고 '여백'을 조정한다.

ABBY-FineReader-15-Reviews-with-Fast-OCR-Recognition
<테스트에 사용한 제품들>

그래서 OCR 속도를 벤치마크하고 OCR 인식률을 다른 버전과 간략하게, 그리고 매우 주관적으로 비교해보았다. 테스트에 사용한 이미지는 얼마 전에 스캔한 『절대지식 일본고전』이라는 책 중에서 100페이지(600dpi)를 선별했다. 물론 다른 책들도 있지만, 굳이 『절대지식 일본고전』을 선택한 이유는 OCR 언어를 ‘한국어 + 일본어’ 조합으로 지정하면, 특정 문자가 ‘ス]’ 이런 식으로 특정 패턴의 인식 오류를 일으키는 버그를 개선했는지 알아보기 위해서다.

OCR 인식 속도 비교

ABBY-FineReader-15-Reviews-with-Fast-OCR-Recognition
<scantailor 공정을 거친 이미지라 [이미지 사전처리]는 OFF>
ABBY-FineReader-15-Reviews-with-Fast-OCR-Recognition
<OCR 작업 시간은 [이미지 열기]부터 [처리 완료됨]까지 잼>

내 노트북 A10-4600M APU(4코어)로 600dpi 이미지 100장을 OCR 완료하는데 걸리는 시간을 측정했다. 가장 최신 버전인 ABBYY FineReader 15가 가장 빠른 작업 속도를 보인 것은 어찌 보면 당연한 결과지만, 12버전이 14버전보다 더 빠른 인식 속도를 보인 점은 놀라운 결과다.

ABBY-FineReader-15-Reviews-with-Fast-OCR-Recognition
<OCR 인식 속도 결과>

사실 2년 전에 작성한 「뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰」에선 ABBYY FineReader 14버전이 12버전보다 빨랐다. 그사이에 어떤 변화가 있었던 것일까? 14버전이 업데이트되면서 느려진 것일까? 아니면 테스트에 사용한 APU가 A6-4400M(2코어)에서 A10-4600M(4코어)로 업그레이드되어서 그런 것일까? 실로 놀라운 역전이지만, 나로서는 그 원인을 밝혀낼 수가 없어 아쉽기만 하다.

Readiris 17버전도 꼽사리로 테스트에 참여했는데, Readiris 17은 OCR 인식에는 오직 1코어만 사용한다는 점(이미지 로딩, 이미지 처리 등 전체 작업에는 멀티 코어 활용)을 고려하면 상당한 선전을 보여주었다. 만약 Readiris 제품이 OCR 작업에도 멀티 코어를 활용한다면 OCR 속도만큼은 가장 빠른 제품이 될 것이다. 달리 말하면 ABBYY FineReader 제품의 OCR 인식 속도는 개선의 여지가 그만큼 많다는 것이다. 주로 영문 이미지를 인식하거나 한국어 인식률이 떨어져도 상관없고 듀얼 코어 이하 사용자는 Readiris 17 제품도 좋은 선택이다.

OCR 언어 ‘한국어 + 일본어’에서의 인식률

ABBY-FineReader-15-Reviews-with-Fast-OCR-Recognition
<'한국어 + 일본어' 혼용 시 이런 류의 인식 오류가 나타난다>

역시 예전 버그 그대로다. OCR 언어를 ‘한국어 + 일본어’로 지정하면 ‘지’ 글자를 ‘ス]’로, ‘자’ 글자를 ‘スト’로, ‘세’ 글자를 ‘人II’로 인식하는 등 특정 문자의 인식률이 매우 떨어진다. 이 문제는 14버전에서도 마찬가지고, 오랜만에 사용한 12버전에서는 나타나지 않았다(한자 인식률을 높이려면 OCR 언어에 중국어를 추가해주면 된다). 또한, OCR 언어를 ‘한국어 + 영어’를 사용할 때 영어 이탤릭체를 제대로 인식하지 못하는 문제는 12, 14, 15버전 모두 여전하다. OCR 언어를 한국어만 사용할 때 한자 인식률이 현격히 떨어지는 문제는 14, 15버전 마찬가지고, 12버전은 앞의 두 버전보다는 조금 양호한 편이다. 하지만, 이미지 품질이 좀 떨어지는 한글 문서나 한국어만 있는 문서를 인식할 땐 버전 15가 가장 괜찮았다. 그리고 'XX71년'에서 '71년'을 '기년'으로 인식하는 오류는 14버전과 다름없다.

결과적으로 OCR 인식률은 크게 나아진 점은 모르겠다. ‘한국어 + 타 언어’ 혼용 시 인식률이 떨어지는 문제는 여전하다. 이것은 한국어에만 해당하는 문제일 수도 있어 개선이 안 되는 것일지도 모르겠다. 물론 이런 인식 오류들은 특정 스캐너에서 스캔한 이미지에서만 발생하는 사소한 문제일 수도 있다.

로봇이 지녀야 할 필수 기술, OCR

ABBYY FineReader 15버전을 조금 사용해보니 조금은 실망스럽다. 속도만 조금 나아졌을 뿐 OCR 인식 버그는 여전하다. 이번 테스트 때문에 오랜만에 12버전을 사용해봤는데, 일본어나 한자가 많은 문서는 최신 버전보다는 12버전을 사용하는 것이 괜찮아 보인다. 15 버전에 새로 추가된 PDF 편집 기능이 꼭 필요한 사람이 아니라면 14 버전 사용자는 굳이 업그레이드할 필요는 없을 것 같다. 대충이나마 테스트를 해놓고 보니, ABBYY FineReader 11버전부터, 그리고 다른 OCR 제품도 틈틈이 써온 한 사람으로서 한국어 OCR 인식률 향상은 기술적 한계에 부딪힌 것일지도 모르겠다는 암담한 생각도 든다.

4
ABBY-FineReader-15-Reviews-with-Fast-OCR-Recognition
<OCR 언어를 '영어'로만 지정하면 이탤릭체도 문제없다>
ABBY-FineReader-15-Reviews-with-Fast-OCR-Recognition
<다만, OCR 언어를 혼용하면 영문 이탤릭체 인식률은 현격히 떨어진다>

한편으론, 요즘 OCR 업계는 한국어보다는 중국어 인식률 향상에 더 신경 쓰는 것 같기도 한데, 중국의 시장 규모도 규모지만, 한국과는 달리 중국은 자체적으로 OCR 엔진을 개발하는 회사가 꽤 있다(바이두도 그중 하나). 그래서 경쟁이 붙은 것인지도 모르겠다. 내가 예전에 중국산 OCR 프로그램을 블로그에 한 번 소개한 적도 있는 것 같은데 그중에는 무료로 배포하는 회사도 있다(아쉽게도 중국어와 영어만 지원하고 PDF 출력 기능은 없었다). 아무리 좋게 봐도 복잡하고 오묘하게 생긴 문자가 중국어임에도 유명 제품 못지않게 중국산 OCR 프로그램의 인식률은 꽤 높다. 다만, 중국산 OCR 프로그램은 PDF 출력이나 교정 같은 부가기능과 OCR 인식 언어 지원이 많이 부족하다. 한국 같은 경우는 어떻게 돌아가는지 잘 모르지만, 최근에 출시한 한글 2020 제품에 처음으로 OCR 기능이 추가되었다고 한다.

이럴 땐 남이 하는 것은 무엇이든 따라 해 보려고 하는 중국의 모방 정신이 부럽기도 하다. 한국어 OCR 인식률을 획기적으로 개선하는 방법은 OCR 엔진 개발에 한국어를 가장 잘 아는 한국인이 참여하는 것이 최선일 것 같은데, 중국어보다 작은 한국어 시장을 위해 누가 그런 수고와 비용을 마다할까?

끝으로 미래에 사람을 닮은 로봇을 완성하려면 OCR 기능은 필수라고 본다. 로봇이 사람과 어울려 사회생활을 하려면 글자를 인식할 줄 알아야 하는데 그 기능의 초석이 되는 기술이 바로 OCR이 아니고서야 무엇이겠는가?

Share:

8/23/2019

PhotoZoom Pro로 스캔한 이미지의 가독성과 OCR 인식률 높이기

이미지 확대/축소를 도와주는 전문 프로그램

예전에 「300dpi 스캔 이미지를 600dpi로 업샘플링하여 가독성 높이기」라는 방법을 소개했었다. 이것은 300DPI 스캔이 600DPI 스캔보다 속도 면에서는 빠르지만, 스캔 결과물의 가독성이 600DPI보다 떨어진다는 단점을 포토샵 보정으로 어느 정도 해결할 수 있다는 점을 소개하고 있다. 하지만, 여러 사정으로 포토샵을 사용할 수 없는 사람에게 같은 효과를 줄 수 있는 괜찮은 프로그램이 있어 소개하고자 한다. 바로 BenVista PhotoZoom Pro이라는 이미지 확대 및 축소 전문 프로그램이다.

PhotoZoom Pro를 이용하면 이미지 편집 프로그램에 익숙하지 않은 초보자라도 몇 번의 클릭만으로 손쉽게 300dpi 문서를 600dpi로 업샘플링할 수 있다. 그뿐만 아니라 PhotoZoom Pro는 이미지를 확대 및 축소하는 과정에서 생길 수 있는 왜곡이나 손실을 바로잡기 위한 S-Spline Max 같은 독창적인 알고리즘을 지원한다. 특히 S-Spline Max 기술을 사용하여 업샘플링하면 가독성을 높임과 동시에 OCR 인식률도 높일 수 있다. 한마디로 일거양득이다.

Improves OCR recognition and readability of scanned images with PhotoZoom Pro
<확실히 눈에 띄는 가독성>
Improves OCR recognition and readability of scanned images with PhotoZoom Pro
<300DPI 원본 OCR 결과>
Improves OCR recognition and readability of scanned images with PhotoZoom Pro
<600DPI 보정 후 OCR 결과>
Improves OCR recognition and readability of scanned images with PhotoZoom Pro
<PhotoZoom Pro은 포토샵처럼 일괄 처리도 지원>

장점이 있으면 단점도 있는 법

하지만, PhotoZoom Pro에겐 치명적인 단점이 있다. 바로 결과물의 파일 크기가 포토샵을 사용하여 업샘플링했을 때보다 비약적으로 증가한다는 점이다. 예를 들어 스크린샷에 사용된 테스트 파일은 300dpi로 스캔한 183KB의 TIFF 파일이다. 이것을 스크린샷 설정을 이용하여 600dpi로 업샘플링한 다음 TIFF로 저장하면 파일 크기가 3M를 훌쩍 넘어선다. 포토샵으로 작업하면 300KB~700KB(어떤 필터를 얼마만큼 사용하느냐에 따라 차이가 난다) 정도이다. 둘 다 일괄 처리를 지원하지만, 작업 속도는 포토샵이 훨씬 빠르다. 참고로 PhotoZoom Pro은 GPU 가속을 지원한다고는 하는데, 내 노트북의 A10-4600M APU에서는 사용할 수 있는 GPU가 없다고 나오는 것으로 보아 OpenGL이나 OpenCL이 아닌 NVIDIA의 CUDA만을 지원하는 것 같다.

하지만, (내 보정 실력이 허접해서 일지도 모르겠지만) 포토샵 결과물보다 PhotoZoom Pro 결과물이 OCR 인식률은 조금 더 높다. 파일 크기에 개의치 않고, 매우 좋은 CPU를 사용하면서 포토샵을 사용할 줄 모르는 사용자가 사용하기에 딱 좋은 프로그램이다. 이미지 파일 크기가 커질수록 PDF 파일 크기도 증가하지만, ABBYY FineReader 같은 경우 PDF 저장 옵션에서 DPI나 이미지 압축률을 조절하여 파일 크기를 어느 정도 줄일 수는 있다.

최종적으로 PhotoZoom Pro을 사용해 300DPI로 스캔한 문서를 600DPI로 업샘플링했을 때의 장 • 단점을 요약해 보면 다음과 같다.

★ 장점

1. 누구라도 사용할 수 있는 편의성.

2. 부담 없는 프로그램 크기.

3. 기본적인 설정만으로도 높은 가독성과 높은 OCR 인식률 보장.

★ 단점

1. 파일 크기가 커짐(개선이 필요해 보임).

2. 포토샵에 비해 느린 작업 속도.

3. 유료 프로그램(구글링으로 해결 가능).

Share:

8/11/2019

굳이 스캔테일러(ScanTailor)를 사용해서 전자책을 만드는 이유

전자책을 직접 제작해 읽어온 지도 벌써 5년

내가 「종이책을 스캔해서 전자책(PDF) 만들기 ~ 1. 스캔」이란 글을 블로그에 소개한 지도 어느덧 5년이나 흘렀다. 이 글의 요지는 책을 훼손하지 않는 평판 스캐너로 책을 스캔한 다음, 그 결과물을 스캔테일러(ScanTailor)로 보기 좋게 재단한 다음, 포토샵 보정으로 가독성을 높인 다음, 최종적으로 파인리더(ABBYY FineReader)라는 OCR 및 PDF 제작 프로그램으로 나만의 전자책을 만드는 과정을 장장 7편에 걸쳐 소개한 글이다. 그때나 지금이나 난 캐논 복합기에 딸린 스캐너를 이용하고 있다. 참고로 스캔하는데 걸리는 시간은 ‘300DPI/그레이/A4 크기/Text’ 설정에서 스캔하는 데만 걸리는 시간은 6초, 헤드가 되돌아오는 시간까지 모두 합산하면 10초 정도 걸리고, 600DPI에서는 각각 10초/14초 정도 걸린다. 고로 300DPI에서 헤드가 되돌아오는 4초 남짓 동안 재빠르게 다음 페이지를 준비할 수 있다면, 한 시간에 최대 360번 스캔할 수 있다는 말이고 이것은 720페이지 분량에 해당한다. 책이 문고판처럼 크기가 작다면 스캔하는 시간도 그만큼 짧아진다. 하지만, 이것은 어디까지나 이론적인 이야기이고 실제로는 그 절반 정도 예상하면 될 것 같다. 대략 한 시간에 300페이지 이상은 스캔할 수 있다는 말이고, 난 이 작업을 영화나 축구 중계를 보면서 한다.

스캔테일러(ScanTailor)를 고집하는 이유

5년이란 세월이 흘렀지만, 아직도 복합기 스캐너를 사용 중이고, 중간에 한번 완전히 분해해서 평판 안쪽을 닦은 것을 제외하고는 딱히 문제가 된 점은 없다. 그동안 대략 400권의 책을 스캔해서 전자책으로 만들었는데, 권당 평균 페이지 수를 500페이지로 잡으면 대략 10만 번 스캔했다는 말이다. 얼마나 더 만들어야 내구성이 바닥날지 나로서는 알 수가 없다. 스캔 품질 역시 인터넷에 공유된 고가 스캐너의 결과물과 비교해보더라도 ─ 그레이 수준에서는 ─ 딱히 나쁘지 않다. 하지만, 컬러 스캔은 좀 차이가 나는 것 같지만 일반적인 책 스캔에서 컬러는 그다지 중요한 요소가 아닌지라 지금의 복합기 스캐너로도 꽤 만족스러운 전자책을 뽑아낼 수 있다. 다만, 고가의 장비는 편리성에서 압도적 우세하다. 물론 책을 파손해야 한다는 단점은 있지만 말이다.

Why-create-an-e-book-using-ScanTailor
<ABBYY FineReader 14 이미지 사전처리>
Why-create-an-e-book-using-ScanTailor
<ABBYY FineReader [맞붙은 페이지 분할] 오류>
Why-create-an-e-book-using-ScanTailor
<ABBYY FineReader [페이지 방향 교정] 오류>

전자책을 만드는 과정은 5년 전과 비교하면 지금은 좀 달라졌다. 조금이라도 시간을 절약하고 힘을 덜 쓰기 위해 지금은 주로 300dpi로 스캔하고, 소설책보다 글씨가 작은 책들만 특별히 600dpi로 스캔한다. 그리고 포토샵 보정도 생략한다. 그래도 7인치 테블릿으로 보는데 지장은 없다. 하지만, 여전히 스캔테일러(ScanTailor)로 재단하는 과정만큼은 유지하고 있다. 왜냐하면, ABBYY FineReader의 재단 능력, 즉 [맞붙은 페이지 분할]과 [페이지 방향 교정] 능력이 미덥지 못하기 때문이다. Readiris 17의 경우는 페이지 분할 기능이 아예 빠져 있다. Acrobat도 비슷해 보이는데, 이것은 내가 해당 기능을 찾지 못해서일 수도 있다. OCR 프로그램의 재단 기능이 아무리 좋아도 현재로서는 스캔테일러(ScanTailor)로 재단한 파일로 PDF를 만드는 것이 보기에는 가장 깔끔하다.

ABBYY FineReader이나 Readiris 등의 OCR 프로그램들의 페이지 분할 능력이 믿을만하면 이제는 쿼드 코어를 사용하고 있기에 OCR 프로그램에 내장된 스캔 기능을 이용하면 스캔과 OCR 작업을 동시에 진행할 수도 있지만, 그러기 위해서는 OCR 프로그램들의 재단 능력이 좀 더 강화될 필요가 있다. 물론, 이 문제는 스캔 품질에 따라, 그리고 OCR 언어 설정에 따라 다를 수도 있으니 사용자 환경에 따라 다를 수도 있다.

여전히 쓸모 있는 나만의 전자책

요즘은 산책하면서 전자책을 TTS(Text-to-Speech), 즉 음성으로 듣고 있다. 깊이 생각하면서 읽을 필요가 있는 책들을 이런 식으로 듣는 것은 대충 흘려보는 수준이나 다를 바 없어 별로 추천하지는 않지만, 책장을 쉽게 넘길 수 있는 소설 같은 경우는 시간도 절약하고 눈의 피로도 줄일 수 있는 좋은 방법인 것 같다. 그런 고로 나만의 전자책을 만들면 여러모로 쓸모가 있는 것은 여전하다.

Share:

12/21/2018

ABBYY FineReader OCR 작업 중 유의해야 할 것

ABBYY FineReader에서 OCR 작업을 돌리면 사용자가 프로젝트로 저장할 때까지 윈도우 임시폴더(윈도우 기본값은 C:\Windows\Temp)에 ‘무제 프로젝트’로 저장된다. ABBYY FineReader가 상당히 안정적인 프로그램이고 설령 중간에 컴퓨터가 (정전이던, 블루스크린이던) 강제로 종료되었다고 해도 저장하지 않은 OCR 작업은 임시폴더에 ‘무제 프로젝트’로 저장되어 있기에 다시 프로그램을 실행시키면 저장하지 않은 기존의 작업을 불러올 것이냐는 친절한 질문과 함께 진행 중인 작업을 온전하게 복구할 수 있다. 그런데 이런 프로세스에 찬물을 끼얹는 녀석을 발견했다. 바로 PortableApps 포맷으로 제작한 포터블 프로그램이다.

Things to watch out for during ABBYY FineReader OCR
<ABBYY FineReader 프로젝트가 임시로 저장되는 위치>
Things to watch out for during ABBYY FineReader OCR
<이런 경고를 보기 전에 ABBYY FineReader 프로젝트는 반드시 저장되어 있어야 한다!>

포터블 프로그램이 어떤 이유로든 비정상적으로 종료되고 나서 다시 실행시키면,

EmEditor Portable did not close properly last time it was run and will now clean up. Please then start EmEditor Portable again manually.

이런 경고 메시지가 뜨는데, 여기서 유의해서 봐야 할 것은 ‘will now clean up’이다. 뭔가를 정리하리라는 것인데, 알고 보니 윈도우 임시폴더를 정리한다는 것! 즉, ABBYY FineReader OCR 작업 프로젝트를 저장하지 않은 상황에서 위 문구가 뜬다면, 그것은 바로 ABBYY FineReader 작업 내용을 전부 다 잃는다는 것이다!

평소에 OCR 편집까지, 그리고 PDF 저장까지 다 마치고 나서야 프로젝트를 저장하는 안일한 습관이 결국 뼈저린 후회를 만들고야 말았는데, 위와 같은 이유로 책을 스캔하고 편집하는 등의 몇 시간 동안의 OCR 작업을 몽땅 잃고 말았다. 곧바로 PE로 부팅해서 파일 복구 프로그램을 돌렸지만, 임시폴더 위치가 SSD이고 트림이 켜져 있는 상태여서 복구는 불가능했다.

참고로 ABBYY FineReader 무제 프로젝트 위치는,

임시폴더\ABBYY\FineReader\(버전)\FineReaderShell\Untitled.FR14.0
Share:

1/16/2018

무료 스크린샷 OCR 프로그램 ~ 夕风OCR图片转文本识别工具(Xi Feng picture to text recognition OCR tool)

夕风OCR图片转文本识别工具 V2.2(截图生成文本软件)

夕风OCR图片转文本识别工具(Xi Feng picture to text recognition OCR tool)는 ABBYY Screenshot Reader처럼 스크린샷에 포함된 텍스트를 인식하는 무료 도구다. 컴퓨터 화면에 보이는 이미지에서 바로 텍스트 인식이 가능하며, PNG, JPG 등의 이미지 파일을 불러와 텍스트 인식(OCR) 작업도 가능하다. 링크 설명을 보면 Sogou OCR / Baidu OCR의 듀얼 인터페이스 OCR 엔진을 사용한다고 하지만, 현재로서는 중국어와 영어만 지원 하는 것 같다. 그럼에도, 중국어와 영어 OCR 성능은 괜찮은 것 같아 간략한 소갯글을 남겨본다.

다운로드: 夕风OCR图片转文本识别工具V2.2.zip

<夕风OCR图片转文本识别工具 메인 화면>
<영역을 지정하는 과정>

사용방법은 夕风OCR图片转文本识别工具을 실행시키고 [스크린샷 인식]을 클릭한 다음 faststone capture 같은 스크린샷 생성 프로그램으로 영역을 지정해서 스크린샷을 생성하는 것처럼 컴퓨터 화면에서 텍스트 인식이 필요한 영역을 드래그 앤 드롭으로 지정해주면 된다. 당연히 인터넷이 연결되어 있어야 OCR 작업이 가능하며, 결과물은 텍스트 파일로 저장할 수 있다.

<OCR 결과>
<바이두 OCR API Key>

예전에 마이크로소프트(Microsoft)는 자사의 번역 기능을 사용할 수 있는 Translator Text API를 개인에게 한 달에 100만 자씩 무료 제공했었는데(여기에서 발급받은 키를 Lingobit Localizer 같은 지역화 프로그램에 등록하면 자동 번역 기능을 사용할 수 있었다), 바이두에서 제공하는 OCR 기능도 바이두 사용자에게 하루 500번씩 무료 사용이 가능한 것 같다.

https://console.bce.baidu.com/ai/#/ai/ocr/app/list

좀 더 자세한 것을 알고 싶은 사람은 위 사이트에 (바이두 로그인 필요) 접속해보라.

API Key와 Secret Key를 발급받으면 바이두 OCR API를 사용할 수 있다. 夕风OCR图片转文本识别工具에도 누군가의 바이두 OCR API Key가 등록되어 있는데, 하루 500번 이상 사용할 사람은 따로 자신만의 Key를 발급받는 것이 좋을 것 같다.

여담이지만, 한국어 윈도우에서는 이런 중국어 프로그램의 메뉴가 종종 깨진다. 夕风OCR图片转文本识别工具(Xi Feng picture to text recognition OCR tool) 같은 경우는 로케일 에물레이터(locale emulator)도 말을 듣지 않았고, 중국어 언어팩만 설치하여 윈도우 인터페이스를 중국어로 변경해도 마찬가지였다. 결국에는 시스템 로케일(system locale)을 [중국]으로 변경한 다음에야 메뉴가 제대로 표시되었는데, 이 과정에서 몇 가지 불상사가 일어났다. ABBYY Findreader처럼 정식으로 인증을 받은 프로그램들의 인증이 풀려버렸고, 윈도우 시작 메뉴가 꼬였다. 시스템 로케일을 다시 [한국]로 되돌려도 뒤엉킨 것이 원상태로 돌아오지는 않았다. 그래서 결국 트루이미지를 가동시켜 복구했다.

정작 중요한 것은 말하지 않았는데, 중국어 언어팩을 설치하고 시스템 로케일을 [중국]으로 변경한 이유는 메뉴가 깨지는 문제 때문만은 아니다. OCR 결과물도 다 함께 깨지기 때문 이다. 다행히 영어는 한국어 윈도우에서도 문제가 없었지만, 중국어 인식을 위해 이 프로그램을 사용해야 하는 사람은 (VMware 같은 가상머신도 가능) 중국어 윈도우를 사용해야 할 듯싶다.

Share:

10/02/2017

ABBYY FineReader 12, 14 한자 인식 성능 향상시키는 방법

<ABBYY FineReader 11은 '한국어'만으로도 한자 인식 가능>

'한국어' + 타언어 인식에 취약한 ABBYY FineReader

 ABBYY FineReader는 한국어 인식 능력만 보면 다른 OCR 프로그램에 비해 훌륭한 성능을 보여주지만, 한국어 문서에 간간이 영어나 한자가 혼용된 이미지를 인식할 때 한글을 제외한 영어나 한자 인식 능력에는 아쉬운 점을 자주 보여준다. 지난 글「뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰」 에서도 보았듯 한국어 본문에 영어 이탤릭체가 추가된 문서에서 ABBYY FineReader는 영문 이탤릭체를 거의 인식하지 못했다. 반면에 OmniPage, Readiris, Acrobat은 영문 이탤릭체도 거의 인식하는 괜찮은 성능을 보여주었다. 영어와 한자뿐만이 아니다. ABBYY FineReader 버전 12의 경우 한국어 본문에 섞인 일본어를 인식하지 못하는 (버전 11에서는 발생하지 않은) 버그가 있었고, 다행히 버전 14에서는 같은 문제가 발생하지 않았다.

<ABBYY FineReader 14의 '한국어'는 한자 인식 성능이 떨어진다>

한자 인식 성능을 높이는 팁

 이렇게 한국어 본문에 영어가 혼합된 경우 영어의 인식률을 높이는 방법을 아직 찾지는 못했지만, 한자는 한자 인식 성능을 높이는 간단한 방법이 있다. 프로그램 인터페이스를 한국어로 설치하면 인식 언어가 기본 값으로 ‘한국어 및 영어’로 되어 있는데, 이것을 ‘한국어; 중국어 번체 및 영어’로 변경하면 한자도 잘 인식된다. OmniPage, Readiris, Acrobat는 인식 언어가 ‘한국어, 영어’로만 되어 있어도 한자 인식에는 특별한 문제가 없었고, 본문 첫 번째 스크린샷에서도 볼 수 있듯 ABBYY FineReader 11 역시 인식 언어 ‘한국어 및 영어’에서도 한자 인식이 가능하다. 한편, ABBYY FineReader 12, 14 버전의 인식 언어 ‘한국어’가 아예 한자 인식을 지원하지 않는 것도 아니다. 다만, 성능이 버전 11에 비해 많이 떨어졌다고 볼 수 있다. 그래서 앞에서 언급한 편법으로 한국어 본문에 포함된 한자의 인식 성능을 개선할 수 있다.

<ABBYY FineReader 14는 '중국어'를 추가해야 제대로 한자 인식>

이러한 점만 개선된다면...

 ABBYY FineReader 14의 한국어 인식 능력은 확실히 개선된 점이 보이지만, 한국어 본문에 포함된 영어 인식 능력은 여전히 타제품과 비교하면 확연히 떨어진다. 다음 버전이나 혹은 업데이트로 이 점만 보완된다면, PDF 뷰어 및 PDF 편집 프로그램이었던 ABBYY PDF Transformer와 통합된 ABBYY FineReader 14는 OCR 편집과 PDF 편집을 하나의 플랫폼에서 세밀하게 완성할 수 있는 독보적인 프로그램이 될 것으로 보인다.

Share:

9/28/2017

뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰

들어가면서....

수 책을 스캔해서 전자책을 제작한 다음 태블릿으로 책을 읽는 나에게 귀가 솔깃한 소식이 전서구처럼날아들어 왔다. (개인적인 견해로는) OCR 프로그램 중 가장 익숙한 교정 기능과 우수한 한글 인식률을 자랑하는 Abbyy FineReader 14를 얻을 수 있는 이벤트가 진행 중이라는 소식이었다. 그래서 혹시나 하는 기대와 설렘으로 오래간만에 OCR 프로그램에 대해 아주 간단하고 비전문적인 리뷰를 작성하게 되었다.

솔직히 잘 알지도 못하는 영역에 대해 뭔가를 써 내려간다는 것은 멋쩍기도 하고 조금은 귀찮기도 하며 부담도 상당하다. 미흡하고 부족하며 작은 부분만을 다루는 지극히 개인적인 글이 될 소지가 다분하기에 본문에 앞서 미리 읽어 볼 분들의 양해를 부탁한다.

1. OCR 소요 시간

 오늘의 메인인 한글 인식률 비교에 앞서 대표적인 OCR 프로그램들의 스캔한 이미지 100페이지에 대한 OCR 소요 시간을 테스트했다. 참고로 테스트에 사용된 사양은 구닥다리 노트북(Asus k55dr, 윈도우 서버 2016)이라는 점을 미리 알려둔다.

<스캔한 이미지 OCR 소요 시간>

오늘 테스트에 사용한 제품

ABBYY FineReader 11.0.113.164
ABBYY FineReader 12.0.101.388
ABBYY FineReader 14.0.101.624
OmniPage Ultimate 19.0
Readiris Corporate 16.0.0 Build 9472
Acrobat DC 2017.012.20098

 사실 OCR 소요 시간 테스트에 그렇게 큰 의미는 없다. OCR 프로그램에서 가장 중요한 것은 바로 글자 인식률이기 때문이다. 인식 속도는 빠르지만 인식률은 저조하다면, 중국집에서 단무지만 맛있고 짜장면은 맛이 없는 격이나 마찬가지다. 누가 단무지만 맛있는 중국집을 찾겠는가?

아무튼, 내가 직접 (캐논 복합기로) 스캔한 100페이지에 대한 OCR 소요 시간은 위와 같으며, Abbyy FineReader 제품은 인식 속도가 꾸준히 향상되고 있음이 테스트 결과에서도 뚜렷하게 나타났으며 OCR 인식 작업에 멀티코어도 제대로 활용했다. 하지만, PDF 저장 등 기타 작업에는 1CPU만 사용하는 것으로 보인다. 반면에 Acrobat은 예나 지금이나 멀티코어를 전혀 활용하지 못해 가장 느리다. Readiris 제품은 멀티코어를 활용하지만, 이미지를 불러들이는 작업에 1CPU, 불러들인 이미지를 OCR하는 과정에 1CPU를 할당했는데, 아무래도 이미지를 불러오는 작업이 일찍 끝나다 보니 결국 1CPU 하나는 놀게 된다. OmniPage Ultimate은 가장 빠른 OCR 속도를 보여준다. 참고로 위 테스트는 순수하게 OCR 인식 과정에 소요되는 시간만 측정했으며, 이미지를 불러오는 작업과 OCR 작업이 분리되지 않은, 혹은 내가 분리하지 못했던 Readiris은 어쩔 수 없이 모든 과정을 측정했다. OmniPage Ultimate는 이미지를 불러들이는 과정에서만 2분 정도 소요되었지만, 위 그래프에 2분(120s0)을 추가해도 역시 가장 빠르며 멀티코어를 가장 효율적으로 사용하는 것으로 보인다.

2. 한글 인식률 테스트 #1

한글 인식률 비교에 사용된 예제는 『산소』(닉 레인)의 135페이지(한글 인식 테스트)와 『걷는 고래』(J. G. M. ‘한스’ 테비슨)의 21페이지(한글과 영문 이탤릭체 혼용 테스트) 골랐다. 여러 페이지를 테스트해야 그만큼 정확한 비교가 가능하지만, 전문가도 아니고 귀차니즘이 발동하다 보니, 그냥 깨끗하게 스캔된 이미지 중 적당한 페이지를 골랐고 포토샵 등으로 보정도 하지 않았으며 OCR에 내장된 이미지 보정 기능도 최대한 억제했다. 너무 성의없어 보이더라도 중국집에서 빼갈과 해삼 요리를 주문하는 호탕함과 아량으로 양해 부탁한다. 하지만, 예제에 사용된 책은 정말 유익하고 재밌는 책이니만큼 한 번쯤 읽어볼 것을 추천한다.

<한글 인식률 테스트 #1에 사용된 원본>
<ABBYY FineReader 11.0.113.164>

ABBYY FineReader 11 인식 결과 ▶ 오탈자: 0/772(총 문자수), 띄어쓰기 오류: 4

오늘 테스트에 사용된 OCR 프로그램 중 가장 오래된 버전임에도 명성에 걸맞게 한글 인식률을 괜찮은 편이다. 다만, 다량의 한글 페이지를 인식하다 보면 '시실(사실)', '7]능(가능)', '71족(가족)', '口!음(마음)', '°ㅣ무(아무)' 등등 특정 단어에서 특수 문자가 혼합된 반복적인 인식 오류가 빈번하게 발견된다. 교정 과정을 통해 수정할 수 있지만, 내 스캐너의 광학 성능이 낮아서 그런 것인지, OCR 엔진 자체 문제인지는 잘 모르겠다. 다만, 버전 12, 14에서는 같은 문제가 더는 발생하지 않는 것으로 보면 역시 11 버전에 탑재된 OCR 엔진의 문제로 보인다.

<ABBYY FineReader 12.0.101.388>

ABBYY FineReader 12 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 4

한글과 일본어 혼용 시 일본어 인식이 안 되는 문제가 있지만, 한글 인식만은 버전 11보다 나은 성능을 보여준다. 한글이 이상한 특수 문자로 대치되는 오류도 거의 없다. 다만, 간혹 이미지에 따라, 혹은 포토샵 보정 결과에 따라 특정 단어가 특정 한자(必, 斗, 天, 乂)로 인식되는 오류가 있다.

<ABBYY FineReader 14.0.101.624>

ABBYY FineReader 14 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 4

오른쪽 인식 결과 창에 형광펜으로 강조 표시가 된 것은 '인식률이 낮은 문자'라는 뜻인데, 막상 오탈자는 하나도 없음에도 모두 인식률이 낮은 문자라고 표시되어 있다. 다른 이미지로도 몇 개 테스트해봤지만, 마찬가지다. 설정에 문제가 있는 것인지, 프로그램 버그인지 알 수가 없다. <-- 이 문제는 이벤트 당첨으로 받은 정식 버전에서는 발생하지 않았다. 그리고 버전 12에서 발생했던 한글과 일본어 혼용 시 일본어가 제대로 인식 안 되던 문제는 해결되었다.

<OmniPage Ultimate 19.0>

OmniPage Ultimate 19 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 1

테스트에 사용된 프로그램 중에서 Abbyy FineReader 11 다음으로 오래된 버전이 아닌가 싶다. 그럼에도 이 테스트에 한해서는 (좀 더 정확히는 이 테스트에 사용한 예제 한 페이지에 한해서는) 가장 좋은 인식률을 보여줬다.

<Readiris Corporate 16.0.0 Build 9472>

Readiris Corporate 16.0 인식 결과 ▶ 오탈자: 6/772, 띄어쓰기 오류: 36

ABBYY FineReader 14처럼 올해 나온 버전이지만, 이 테스트에서만큼은 한글 인식률은 앞선 제품들보다 저조한 모습을 보여줬다.

<Acrobat DC 2017.012.20098>

Acrobat DC 2017 인식 결과 ▶ 오탈자: 8/772, 띄어쓰기 오류: 41

Acrobat은 오늘 테스트에 사용된 제품 중 가장 큰 용량을 차지하면서 가장 무겁게 느껴지는 프로그램이지만, 한글 인식률도 OCR 속도도 가장 낮은 성능을 보여주었다. 지금까지의 테스트 결과만을 놓고 본다면 Acrobat은 단무지도 맛없고 짜장면도 맛없는 중국집이다. 하지만, Acrobat은 클리어스캔(ClearScan)이라는, PDF 용량을 획기적으로 줄이면서 가독성은 유지하는 썩 괜찮은 기술이 있다. Abbyy FindReader도 12 버전부터는 (이전부터 지원했던) MRC 압축 기술(일반적인 PDF 압축 기술)에 Abbyy PreciseScan이라는 새로운 기술을 도입했다. Abbyy PreciseScan으로 PDF를 만들면 MRC 압축보다는 파일 크기는 약간 증가하지만, 가독성은 ClearScan처럼 획기적으로 증가한다. 다만, 아쉬운 점은 Abbyy PreciseScan으로 만든 PDF 문서는 ClearScan으로 만든 문서에 비해 PDF 로딩 속도가 꽤 길다. 이것은 나처럼 태블릿으로 PDF를 볼 때 상당히 불편하다.

3. 한글 인식률 테스트 #2

두 번째 한글 인식률 테스트는 본문에 약간의 영문 이탤릭체가 포함된, 일부러 좀 까다로운 경우를 골랐다. 두 번째 테스트에서는 내가 오탈자나 띄어쓰기 오류를 직접 세지는 않았으며, OCR 완료된 텍스트를 통째로 복사해서 붙여 넣었으니 직접 비교해보길 바란다.

<한글 인식률 테스트 #2에 사용된 원본>
  • ABBYY FineReader 11 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목亞目으로 나누어,즉혹등고래와같은수염
      고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
      탁스mc가 수염을 뜻하고,케토스뇨tos가 바다 괴물을 뜻하므로,그는
      수염고래를 ‘미스티케투스즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mt/s를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자!•은 고래가 포유류라는
      것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴『자연의 체계』에서 “이런 이유에서 나는고래를물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
      두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기”,그리고 마지막으로 “자연법
      2. 어류냐,포유류냐,아니면공룡? 21
  • ABBYY FineReader 12 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목교g으로 나누어,즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
      들을 가지고 있다(〈그림 4〉). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
      ^±Lmustax7\ 수염을 뜻하고,케토스始切s가 바다 괴물을 뜻하므로,그는
      수염고래를 ‘미스티케투스배즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mws를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴『자연의 체계』에서 “이런 이유에서 나는고래를물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
      두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는수컷의 성기”,그리고 마지막으로 “자연법
      2. 어류냐,포유류냐,아니면공룡? 21
  • ABBYY FineReader 14 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목호련으로 나누어,즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
      염고꽤가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다 <〈그림 5> ). 그리스어로 무스
      탁스■《切义가 수염을 뜻하고,케토스ktos가 바다 괴물을 뜻하므로,그는
      수염고래를 ‘미스티케투스—사/cem/,즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mws를 적은 거라고
      생각하는 사람들도 있기는 하다).3>
      이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴『자연의 체계』에서 "이런 이유에서 나는고래를물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
      두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기”,그리고 마지막으로 “자연법
      2.어류냐,포유류냐,아니면공룡? 21
  • OmniPage Ultimate 19 인식 결과 펼쳐 보기
    • 에서 따라다녀야痘}다”라고 썼다.n 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목뎌소i □ 으로 나누어, 즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.Z) 아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5>). 그리스어로 무스
      탁스〃iustax가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
      수염고래를 ‘미스티케투스In)'sticetlls’, 즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐Illouse 또는 근육-muscle을 뜻하는 무스〃ills를 적은 거라고
      생각하는 사람들도 있기는 하다).시
      이렇게, 심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과 수유라는 점을 알고 있었다. 18세기 에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 있었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에 『모비 딕』을 출간했는데, 멜빌의 주인
      공인 고래잡이 이슈메일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴 『자연의 쳬계』에서 “이런 이유에서 나는 고래를 물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. '"
      두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 있는 귀, 젖꼭지로
      젖을 먹이는 암컷의 쳬내에 삽입되는 수컷의 성기 ”, 그리고 마지막으로 "‘자연법
      z. 어류냐,포유류냐,아니면공룡? 21
  • Readiris Corporate 16 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다’’라고 썼다.l) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목亞目으로 나누어, 즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다• 이빨고래류는 대개 이빨을 가지고 였다.2) 아리스토텔레스는 수
      염고래가 이빨은 없지만 ‘‘돼지털을 닮은 억센 털’’을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수엽, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
      들을 가지고 있다(〈그림 4〉)• 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 냔 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
      탁스mustax가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
      수염고래를 ‘미스티케투스mysticetus', 즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육111uscle을 뜻하는 무스mus를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게, 심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 걸정
      적특징이 털과수유라는점을알고있었다.18세기에는위대한계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 였었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 짐에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에 『모비 딕』을 출간했는데, 멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학지들괴- 맞붙는다.
      린네는1776년에 쓴 『자연의 체계』에서 ‘‘이런 이유에서 나는고래를물고기에서
      제외한다’’고 선언했다. 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. "
      두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 였는 귀, 젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기 "' 그리고 마지막으로 ‘‘자연법
      2. 어류냐,포유류냐,아니면공룡? 21
  • Acrobat DC 2017 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다’’라고 썼다.' ) 그는 고래목을 두 집단으로 구분하기도
      했댜 이 두 집단을지금은아목亞目으로나누어, 즉혹등고래와같은수염
      고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른댜 이빨고래류는 대개 이빨을 가지고 있다? 아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 패지털이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5>). 그리스어로 무스
      탁스,/nusta.x가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
      수염고래를 미 스티케투스mysticetus· , 즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mus를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게, 심지어 기원전 4세기에도 과학지들은· 포유류를 정의하는 결정
      적 특징 이 털과수유라는점을알고 있었다.18세기에는위대한계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학지들은- 고래가 포유류라는
      것을 알고 있었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
      보지 못했댜 허먼 멜빌은 1851 년에 『모비 딕 』을출간했는데, 멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776 년에 쓴 『자연의 체계』에서 ‘‘ 이런 이유에서 나는고래를물고기에서
      제외한다’’고 선언했댜 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
      선언에도 불구하고 1850 년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. "
      두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 있는 귀, 젖꼭지로
      젖올 먹이는 암컷의 체내에 삽입되는 수컷의 성기", 그리고 마지막으로 “자연법
      2. 어류냐,포유류냐,아니면공룡, 21

▶ 총평

한글 본문에 알아보기 어려운 이탤릭체의 영어가 섞이니 첫 번째 테스트와는 사뭇 다른 결과가 나왔다. 일례로 '미스티케투스mysticetus'와 '亞目'라는 단어 두 개를 전부 인식한 제품은 Acrobat과 Readiris뿐이다. 첫 번째 테스트에서 가장 나쁜 결과를 보여주었던 Acrobat이 나름 선전하는 듯하나 모든 제품이 '돼지털'이라고 말할 때 혼자 '패지털'이라고 우기지를 않나, 문장 마무리를 멋대로 '-댜'로 바꾸지를 않나 여전히 맛없는 짜장면이다. 첫 번째 테스트에서 가장 좋은 결과를 보여줬던 OmniPage는 두 번째 테스트에선 고전을 면치 못했다. Abbyy는 11 제품부터 한글과 영문 이탤릭체 혼용 시 약한 모습을 보여줬는데, 14에서도 큰 진전은 없어 보인다. 그래도 11, 12 버전에서는 'mysticetus'라는 단어가 아예 인식조차 되지 않고 생략되었는데 반해 14 버전은 깨진 문자 '—사/cem/'로나마 인식하려고 애쓰는 모습을 보여주었다.

5. Abbyy FindReader 14에 대한 장점과 단점

Abbyy 제품은 한글과 영문(특히 이탤릭체) 혼용된 이미지를 OCR할 때 영문 인식률이 거의 제로에 가깝다는 단점이 있다. 이 점은 학술 용어가 난무하는 책을 작업할 때 좀 난감하다. 일일이 수정하기는 번거롭고 일정한 패턴을 보이는 것도 아니기 때문이다. 일정한 패턴을 보이면, 예를 들어 '口!음(마음)'이라면 Ctrl+H 바꾸기 기능으로 전체 문서에서 쉽게 오류를 수정할 수 있다. 하지만, 이러한 인식 문제는 한국 사용자에게만 해당되는 사항일 것이고, 한국 사용자가 그리 많지는 않을 거라고 예상해 보면 이 문제는 쉽게 개선될 것 같지는 않지만 그래도 다음 버전에서는 나아지기를 기대해 본다.

반면에 다량의 문서를 작업해 온 내가 보기엔 한글 인식률만큼은 Abbyy가 독보적이다. 버전 11부터 써온 나로서는 버전 12를 거쳐 14까지 오면서 한글 인식률이 나날이 향상되는 느낌을 받아왔다. 익숙해서인지는 모르겠지만, 설치 후 특별히 옵션을 만지작거릴 것도 별로 없으며 있다 해도 복잡하지 않다. Acrobat은 설정이 너무 복잡하고, Readiris는 아예 설정할 건덕지가 없고, OmniPage는 영문인데다가 반드시 신경 써야 할 설정이 좀 있다. 또한, 원문과 텍스트 창을 한눈에 비교하며 교정할 수 있는 Abbyy의 직관적인 인터페이스는 매우 효율적이다. Acrobat의 교정 과정은 그냥 모양뿐이고, Readiris는 노가다이며, OmniPage가 그나마 쓸만한데, 그래도 OCR 후 꼼꼼하게 교정을 거치는 사용자라면 단연코 Abbyy가 최선의 선택이다. 하물며 이번 14 버전에는 PDF 편집 프로그램인 ABBYY PDF Transformer가 통합된 것으로 보인다. 고로 이제는 Abbyy FineReader로 OCR뿐만 아니라 전문적인 PDF 편집까지 모든 작업을 하나의 플랫폼에서 끝낼 수 있게 되었다.

마지막으로 오늘 테스트한 OCR 프로그램 중 추천한다면 Abbyy FindReader 제품과 Readiris를 추천하고 싶다. OCR 후 조금이라도 교정을 거치는 사용자이거나 PDF 편집을 주로 하는 사용자라면 Abbyy FindReader 제품만 한 것이 없고, 오탈자 같은 거 신경 쓰지 않고 OCR 후 바로 PDF로 저장하는 사용자라면 좀 더 저렴한 Readiris 제품도 괜찮다.

Share:

2/23/2016

Abbyy FindReader 11, 내부 프로그램 오류 ~ Src\Pdf\Exporter\Fonts\FontDescriptorlmpl.cpp

내부 프로그램 오류:
.\Src\PdfExporter\Fonts\FontDescriptorlmpl.cpp.107.

Abbyy FindReader 11에서 PDF로 저장할 때 간혹 위와 같은 오류가 뜨면서 작업이 완료되지 않을 때가 있다. 이것은 어떤 이유에서 한두 페이지가 문제를 일으킨 것인데, 어떤 페이지가 문제인지 알아내려면 아래 스샷처럼 PDF로 저장할 때 [각 페이지를 별도 파일로 만들기]로 저장하면 된다. 그러면 맨 아래 스샷처럼 어떤 페이지가 문제를 일으켰는지 쉽게 알 수 있다.

문제를 일으킨 389페이지를 삭제하고 389페이지의 원본 이미지를 다시 추가해서 OCR 한 후 다시 PDF로 저장하니 이번에는 문제없이 완료되었다.

또 다른 방법은 Abbyy FindReader 11에서 FindReader 문서로 저장한 후 그것을 Abbyy FindReader 12에서 열어 작업하면 된다.

이 리뷰는 2016년 2월 23일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

12/15/2015

포토샵 보정과 OCR 인식률

이번 테스트는 포토샵 보정에 따른 OCR 인식률의 변화다. 참고로 이번 테스트에 사용한 포토샵 보정 액션 OCR.atn은 이 링크에서 다운로드 할 수 있다.

무보정 원본 인식 결과

13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.

14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 214-5ᅳ20)

15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”,http://world.huanqiu.com/exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性,因此加强了對數學與工程學的投資”,http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

Color Burn 혼합 후 인식 결과

  • Color Burn 혼합 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
      14 Apple’s Jobs to Obama: “Jobs aren't coming back” to U.S., http!//www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2014-5-20)
      15 “奥巴馬在中國製造下推廣美國製造 大風吹現眞相”, http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性, 因此加强了對數學與工程學的投資”,http://energy.gov/articles/ pi.esident-s-coundl—jobs—and—competitiveness-announces-industry-leaders— commiment-double. (검색일: 2014-5-7)

Multiply 혼합 후 인식 결과

  • Multiply 혼합 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
      14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 24-5-20)
      15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”, http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性, 因此加强了對數學與工程學的投資”, http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

Level, Unsharp 보정 후 인식 결과

  • Level, Unsharp 보정 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 치-지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 히씨 못하였거나 취업을 포기함으로써 발생힘-. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포힘-하지 않았음.
      14 Apple's Jobs to Obama: “Jobs aren't coming back" to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2014-5—20)
      15 “奥巴馬在中國製造下推廣美國製造 大風吹現眞相”,http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到 /去工 業化的嚴합性,因此加强了尉數은工程^的投資",http://energy.gov/articles/ presiclent-s-council-jobs-ancl-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

High Pass 보정 후 인식 결과

  • High Pass 보정 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
      14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2ᄋ14-5ᅳ20)
      15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”,http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性,因此加强了對數學與工程學的投資”,http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5ᅳ7)

간단한 이번 테스트 결과와 그동안의 경험으로 봐서는 OCR 프로그램의 눈과 사람의 눈은 달랐다. 즉, 사람의 눈에 명확하게 보이는 진하고 선이 굵은 가독성 높은 보정이 오히려 OCR 인식률을 낮추는 결과를 가져오기 때문이다.

한자나 한글 같은 경우 레벨과 언샵 보정 후에는 낮은 인식률을 보여주는 경우가 종종 있다. 지나친 보정은 글자 획을 굵게 만들어 획과 획 사이의 간격을 너무 좁히거나 겹치게 하기 때문에 자잘한 오타를 유발한다. 거꾸로 원본 상태에서는 제대로 인식하지 못한 글자를 레벨/언샵 보정 후 제대로 인식할 때도 있다. 그래서 전체 이미지에 일괄적용하기 전에 반드시 테스트가 필요하며 스캔한 책의 상태나 재질, 글자 크기에 값도 달라질 수밖에 없다. 레벨과 언샵 보정이 비록 OCR 인식률을 낮추는 경우가 있지만, 가독성은 좋아지고 스캔된 먼지나 이미지의 노이즈 같은 군더더기를 없애면서 파일 크기를 대폭 줄여준다는 장점은 있다(아래 그래프 참고).

인식률에 큰 영향을 주지 않는 보정은 블렌딩 모드와 High Pass 보정을 기초로 작업하는 것이며, 오로지 좋은 OCR 결과만을 원한다면 무보정, 또는 Color Burn 혼합(50~100%)을 약간 사용하는 것이다. 그러나 이 설정은 스캐너의 스캔 품질에 따라 달라질 여지가 많아서 OCR 작업 전에 한 페이지 정도 테스트하면서 최적의 보정 값을 얻은 다음 그 값을 전체 이미지에 일괄적용한 다음 OCR 진행하는 것을 추천한다. 참고로 이 테스트에는 ABBYY Finereader 11 버전이 사용되었다.

이 리뷰는 2015년 12월 15일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

Category

팔로어

Recent Comments

Blog Archive