책도 읽고, 영화도 보고, 그리고 일상적인 생각을 쓰고. 이 모든 것을 음악을 들으며.

Recent Comments

레이블이 OCR인 게시물을 표시합니다. 모든 게시물 표시
레이블이 OCR인 게시물을 표시합니다. 모든 게시물 표시

2018년 12월 21일 금요일

ABBYY FineReader OCR 작업 중 유의해야 할 것

ABBYY FineReader에서 OCR 작업을 돌리면 사용자가 프로젝트로 저장할 때까지 윈도우 임시폴더(윈도우 기본값은 C:\Windows\Temp)에 ‘무제 프로젝트’로 저장된다. ABBYY FineReader가 상당히 안정적인 프로그램이고 설령 중간에 컴퓨터가 (정전이던, 블루스크린이던) 강제로 종료되었다고 해도 저장하지 않은 OCR 작업은 임시폴더에 ‘무제 프로젝트’로 저장되어 있기에 다시 프로그램을 실행시키면 저장하지 않은 기존의 작업을 불러올 것이냐는 친절한 질문과 함께 진행 중인 작업을 온전하게 복구할 수 있다. 그런데 이런 프로세스에 찬물을 끼얹는 녀석을 발견했다. 바로 PortableApps 포맷으로 제작한 포터블 프로그램이다.

Things to watch out for during ABBYY FineReader OCR
<ABBYY FineReader 프로젝트가 임시로 저장되는 위치>
Things to watch out for during ABBYY FineReader OCR
<이런 경고를 보기 전에 ABBYY FineReader 프로젝트는 반드시 저장되어 있어야 한다!>

포터블 프로그램이 어떤 이유로든 비정상적으로 종료되고 나서 다시 실행시키면,

EmEditor Portable did not close properly last time it was run and will now clean up. Please then start EmEditor Portable again manually.

이런 경고 메시지가 뜨는데, 여기서 유의해서 봐야 할 것은 ‘will now clean up’이다. 뭔가를 정리하리라는 것인데, 알고 보니 윈도우 임시폴더를 정리한다는 것! 즉, ABBYY FineReader OCR 작업 프로젝트를 저장하지 않은 상황에서 위 문구가 뜬다면, 그것은 바로 ABBYY FineReader 작업 내용을 전부 다 잃는다는 것이다!

평소에 OCR 편집까지, 그리고 PDF 저장까지 다 마치고 나서야 프로젝트를 저장하는 안일한 습관이 결국 뼈저린 후회를 만들고야 말았는데, 위와 같은 이유로 책을 스캔하고 편집하는 등의 몇 시간 동안의 OCR 작업을 몽땅 잃고 말았다. 곧바로 PE로 부팅해서 파일 복구 프로그램을 돌렸지만, 임시폴더 위치가 SSD이고 트림이 켜져 있는 상태여서 복구는 불가능했다.

참고로 ABBYY FineReader 무제 프로젝트 위치는,

임시폴더\ABBYY\FineReader\(버전)\FineReaderShell\Untitled.FR14.0
Share:

2018년 1월 16일 화요일

무료 스크린샷 OCR 프로그램 ~ 夕风OCR图片转文本识别工具(Xi Feng picture to text recognition OCR tool)

夕风OCR图片转文本识别工具 V2.2(截图生成文本软件)

夕风OCR图片转文本识别工具(Xi Feng picture to text recognition OCR tool)는 ABBYY Screenshot Reader처럼 스크린샷에 포함된 텍스트를 인식하는 무료 도구다. 컴퓨터 화면에 보이는 이미지에서 바로 텍스트 인식이 가능하며, PNG, JPG 등의 이미지 파일을 불러와 텍스트 인식(OCR) 작업도 가능하다. 링크 설명을 보면 Sogou OCR / Baidu OCR의 듀얼 인터페이스 OCR 엔진을 사용한다고 하지만, 현재로서는 중국어와 영어만 지원 하는 것 같다. 그럼에도, 중국어와 영어 OCR 성능은 괜찮은 것 같아 간략한 소갯글을 남겨본다.

다운로드: 夕风OCR图片转文本识别工具V2.2.zip

<夕风OCR图片转文本识别工具 메인 화면>
<영역을 지정하는 과정>

사용방법은 夕风OCR图片转文本识别工具을 실행시키고 [스크린샷 인식]을 클릭한 다음 faststone capture 같은 스크린샷 생성 프로그램으로 영역을 지정해서 스크린샷을 생성하는 것처럼 컴퓨터 화면에서 텍스트 인식이 필요한 영역을 드래그 앤 드롭으로 지정해주면 된다. 당연히 인터넷이 연결되어 있어야 OCR 작업이 가능하며, 결과물은 텍스트 파일로 저장할 수 있다.

<OCR 결과>
<바이두 OCR API Key>

예전에 마이크로소프트(Microsoft)는 자사의 번역 기능을 사용할 수 있는 Translator Text API를 개인에게 한 달에 100만 자씩 무료 제공했었는데(여기에서 발급받은 키를 Lingobit Localizer 같은 지역화 프로그램에 등록하면 자동 번역 기능을 사용할 수 있었다), 바이두에서 제공하는 OCR 기능도 바이두 사용자에게 하루 500번씩 무료 사용이 가능한 것 같다.

https://console.bce.baidu.com/ai/#/ai/ocr/app/list

좀 더 자세한 것을 알고 싶은 사람은 위 사이트에 (바이두 로그인 필요) 접속해보라.

API Key와 Secret Key를 발급받으면 바이두 OCR API를 사용할 수 있다. 夕风OCR图片转文本识别工具에도 누군가의 바이두 OCR API Key가 등록되어 있는데, 하루 500번 이상 사용할 사람은 따로 자신만의 Key를 발급받는 것이 좋을 것 같다.

여담이지만, 한국어 윈도우에서는 이런 중국어 프로그램의 메뉴가 종종 깨진다. 夕风OCR图片转文本识别工具(Xi Feng picture to text recognition OCR tool) 같은 경우는 로케일 에물레이터(locale emulator)도 말을 듣지 않았고, 중국어 언어팩만 설치하여 윈도우 인터페이스를 중국어로 변경해도 마찬가지였다. 결국에는 시스템 로케일(system locale)을 [중국]으로 변경한 다음에야 메뉴가 제대로 표시되었는데, 이 과정에서 몇 가지 불상사가 일어났다. ABBYY Findreader처럼 정식으로 인증을 받은 프로그램들의 인증이 풀려버렸고, 윈도우 시작 메뉴가 꼬였다. 시스템 로케일을 다시 [한국]로 되돌려도 뒤엉킨 것이 원상태로 돌아오지는 않았다. 그래서 결국 트루이미지를 가동시켜 복구했다.

정작 중요한 것은 말하지 않았는데, 중국어 언어팩을 설치하고 시스템 로케일을 [중국]으로 변경한 이유는 메뉴가 깨지는 문제 때문만은 아니다. OCR 결과물도 다 함께 깨지기 때문 이다. 다행히 영어는 한국어 윈도우에서도 문제가 없었지만, 중국어 인식을 위해 이 프로그램을 사용해야 하는 사람은 (VMware 같은 가상머신도 가능) 중국어 윈도우를 사용해야 할 듯싶다.

Share:

2017년 10월 2일 월요일

ABBYY FineReader 12, 14 한자 인식 성능 향상시키는 방법

<ABBYY FineReader 11은 '한국어'만으로도 한자 인식 가능>

'한국어' + 타언어 인식에 취약한 ABBYY FineReader

 ABBYY FineReader는 한국어 인식 능력만 보면 다른 OCR 프로그램에 비해 훌륭한 성능을 보여주지만, 한국어 문서에 간간이 영어나 한자가 혼용된 이미지를 인식할 때 한글을 제외한 영어나 한자 인식 능력에는 아쉬운 점을 자주 보여준다. 지난 글「뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰」 에서도 보았듯 한국어 본문에 영어 이탤릭체가 추가된 문서에서 ABBYY FineReader는 영문 이탤릭체를 거의 인식하지 못했다. 반면에 OmniPage, Readiris, Acrobat은 영문 이탤릭체도 거의 인식하는 괜찮은 성능을 보여주었다. 영어와 한자뿐만이 아니다. ABBYY FineReader 버전 12의 경우 한국어 본문에 섞인 일본어를 인식하지 못하는 (버전 11에서는 발생하지 않은) 버그가 있었고, 다행히 버전 14에서는 같은 문제가 발생하지 않았다.

<ABBYY FineReader 14의 '한국어'는 한자 인식 성능이 떨어진다>

한자 인식 성능을 높이는 팁

 이렇게 한국어 본문에 영어가 혼합된 경우 영어의 인식률을 높이는 방법을 아직 찾지는 못했지만, 한자는 한자 인식 성능을 높이는 간단한 방법이 있다. 프로그램 인터페이스를 한국어로 설치하면 인식 언어가 기본 값으로 ‘한국어 및 영어’로 되어 있는데, 이것을 ‘한국어; 중국어 번체 및 영어’로 변경하면 한자도 잘 인식된다. OmniPage, Readiris, Acrobat는 인식 언어가 ‘한국어, 영어’로만 되어 있어도 한자 인식에는 특별한 문제가 없었고, 본문 첫 번째 스크린샷에서도 볼 수 있듯 ABBYY FineReader 11 역시 인식 언어 ‘한국어 및 영어’에서도 한자 인식이 가능하다. 한편, ABBYY FineReader 12, 14 버전의 인식 언어 ‘한국어’가 아예 한자 인식을 지원하지 않는 것도 아니다. 다만, 성능이 버전 11에 비해 많이 떨어졌다고 볼 수 있다. 그래서 앞에서 언급한 편법으로 한국어 본문에 포함된 한자의 인식 성능을 개선할 수 있다.

<ABBYY FineReader 14는 '중국어'를 추가해야 제대로 한자 인식>

이러한 점만 개선된다면...

 ABBYY FineReader 14의 한국어 인식 능력은 확실히 개선된 점이 보이지만, 한국어 본문에 포함된 영어 인식 능력은 여전히 타제품과 비교하면 확연히 떨어진다. 다음 버전이나 혹은 업데이트로 이 점만 보완된다면, PDF 뷰어 및 PDF 편집 프로그램이었던 ABBYY PDF Transformer와 통합된 ABBYY FineReader 14는 OCR 편집과 PDF 편집을 하나의 플랫폼에서 세밀하게 완성할 수 있는 독보적인 프로그램이 될 것으로 보인다.

Share:

2017년 9월 28일 목요일

뛰어난 한글 인식, 손쉬운 교정 ~ OCR 프로그램 Abbyy Finereader 14 간단 리뷰

들어가면서....

수 책을 스캔해서 전자책을 제작한 다음 태블릿으로 책을 읽는 나에게 귀가 솔깃한 소식이 전서구처럼날아들어 왔다. (개인적인 견해로는) OCR 프로그램 중 가장 익숙한 교정 기능과 우수한 한글 인식률을 자랑하는 Abbyy FineReader 14를 얻을 수 있는 이벤트가 진행 중이라는 소식이었다. 그래서 혹시나 하는 기대와 설렘으로 오래간만에 OCR 프로그램에 대해 아주 간단하고 비전문적인 리뷰를 작성하게 되었다.

솔직히 잘 알지도 못하는 영역에 대해 뭔가를 써 내려간다는 것은 멋쩍기도 하고 조금은 귀찮기도 하며 부담도 상당하다. 미흡하고 부족하며 작은 부분만을 다루는 지극히 개인적인 글이 될 소지가 다분하기에 본문에 앞서 미리 읽어 볼 분들의 양해를 부탁한다.

1. OCR 소요 시간

 오늘의 메인인 한글 인식률 비교에 앞서 대표적인 OCR 프로그램들의 스캔한 이미지 100페이지에 대한 OCR 소요 시간을 테스트했다. 참고로 테스트에 사용된 사양은 구닥다리 노트북(Asus k55dr, 윈도우 서버 2016)이라는 점을 미리 알려둔다.

<스캔한 이미지 OCR 소요 시간>

오늘 테스트에 사용한 제품

ABBYY FineReader 11.0.113.164
ABBYY FineReader 12.0.101.388
ABBYY FineReader 14.0.101.624
OmniPage Ultimate 19.0
Readiris Corporate 16.0.0 Build 9472
Acrobat DC 2017.012.20098

 사실 OCR 소요 시간 테스트에 그렇게 큰 의미는 없다. OCR 프로그램에서 가장 중요한 것은 바로 글자 인식률이기 때문이다. 인식 속도는 빠르지만 인식률은 저조하다면, 중국집에서 단무지만 맛있고 짜장면은 맛이 없는 격이나 마찬가지다. 누가 단무지만 맛있는 중국집을 찾겠는가?

아무튼, 내가 직접 (캐논 복합기로) 스캔한 100페이지에 대한 OCR 소요 시간은 위와 같으며, Abbyy FineReader 제품은 인식 속도가 꾸준히 향상되고 있음이 테스트 결과에서도 뚜렷하게 나타났으며 OCR 인식 작업에 멀티코어도 제대로 활용했다. 하지만, PDF 저장 등 기타 작업에는 1CPU만 사용하는 것으로 보인다. 반면에 Acrobat은 예나 지금이나 멀티코어를 전혀 활용하지 못해 가장 느리다. Readiris 제품은 멀티코어를 활용하지만, 이미지를 불러들이는 작업에 1CPU, 불러들인 이미지를 OCR하는 과정에 1CPU를 할당했는데, 아무래도 이미지를 불러오는 작업이 일찍 끝나다 보니 결국 1CPU 하나는 놀게 된다. OmniPage Ultimate은 가장 빠른 OCR 속도를 보여준다. 참고로 위 테스트는 순수하게 OCR 인식 과정에 소요되는 시간만 측정했으며, 이미지를 불러오는 작업과 OCR 작업이 분리되지 않은, 혹은 내가 분리하지 못했던 Readiris은 어쩔 수 없이 모든 과정을 측정했다. OmniPage Ultimate는 이미지를 불러들이는 과정에서만 2분 정도 소요되었지만, 위 그래프에 2분(120s0)을 추가해도 역시 가장 빠르며 멀티코어를 가장 효율적으로 사용하는 것으로 보인다.

2. 한글 인식률 테스트 #1

한글 인식률 비교에 사용된 예제는 『산소』(닉 레인)의 135페이지(한글 인식 테스트)와 『걷는 고래』(J. G. M. ‘한스’ 테비슨)의 21페이지(한글과 영문 이탤릭체 혼용 테스트) 골랐다. 여러 페이지를 테스트해야 그만큼 정확한 비교가 가능하지만, 전문가도 아니고 귀차니즘이 발동하다 보니, 그냥 깨끗하게 스캔된 이미지 중 적당한 페이지를 골랐고 포토샵 등으로 보정도 하지 않았으며 OCR에 내장된 이미지 보정 기능도 최대한 억제했다. 너무 성의없어 보이더라도 중국집에서 빼갈과 해삼 요리를 주문하는 호탕함과 아량으로 양해 부탁한다. 하지만, 예제에 사용된 책은 정말 유익하고 재밌는 책이니만큼 한 번쯤 읽어볼 것을 추천한다.

<한글 인식률 테스트 #1에 사용된 원본>
<ABBYY FineReader 11.0.113.164>

ABBYY FineReader 11 인식 결과 ▶ 오탈자: 0/772(총 문자수), 띄어쓰기 오류: 4

오늘 테스트에 사용된 OCR 프로그램 중 가장 오래된 버전임에도 명성에 걸맞게 한글 인식률을 괜찮은 편이다. 다만, 다량의 한글 페이지를 인식하다 보면 '시실(사실)', '7]능(가능)', '71족(가족)', '口!음(마음)', '°ㅣ무(아무)' 등등 특정 단어에서 특수 문자가 혼합된 반복적인 인식 오류가 빈번하게 발견된다. 교정 과정을 통해 수정할 수 있지만, 내 스캐너의 광학 성능이 낮아서 그런 것인지, OCR 엔진 자체 문제인지는 잘 모르겠다. 다만, 버전 12, 14에서는 같은 문제가 더는 발생하지 않는 것으로 보면 역시 11 버전에 탑재된 OCR 엔진의 문제로 보인다.

<ABBYY FineReader 12.0.101.388>

ABBYY FineReader 12 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 4

한글과 일본어 혼용 시 일본어 인식이 안 되는 문제가 있지만, 한글 인식만은 버전 11보다 나은 성능을 보여준다. 한글이 이상한 특수 문자로 대치되는 오류도 거의 없다. 다만, 간혹 이미지에 따라, 혹은 포토샵 보정 결과에 따라 특정 단어가 특정 한자(必, 斗, 天, 乂)로 인식되는 오류가 있다.

<ABBYY FineReader 14.0.101.624>

ABBYY FineReader 14 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 4

오른쪽 인식 결과 창에 형광펜으로 강조 표시가 된 것은 '인식률이 낮은 문자'라는 뜻인데, 막상 오탈자는 하나도 없음에도 모두 인식률이 낮은 문자라고 표시되어 있다. 다른 이미지로도 몇 개 테스트해봤지만, 마찬가지다. 설정에 문제가 있는 것인지, 프로그램 버그인지 알 수가 없다. <-- 이 문제는 이벤트 당첨으로 받은 정식 버전에서는 발생하지 않았다. 그리고 버전 12에서 발생했던 한글과 일본어 혼용 시 일본어가 제대로 인식 안 되던 문제는 해결되었다.

<OmniPage Ultimate 19.0>

OmniPage Ultimate 19 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 1

테스트에 사용된 프로그램 중에서 Abbyy FineReader 11 다음으로 오래된 버전이 아닌가 싶다. 그럼에도 이 테스트에 한해서는 (좀 더 정확히는 이 테스트에 사용한 예제 한 페이지에 한해서는) 가장 좋은 인식률을 보여줬다.

<Readiris Corporate 16.0.0 Build 9472>

Readiris Corporate 16.0 인식 결과 ▶ 오탈자: 6/772, 띄어쓰기 오류: 36

ABBYY FineReader 14처럼 올해 나온 버전이지만, 이 테스트에서만큼은 한글 인식률은 앞선 제품들보다 저조한 모습을 보여줬다.

<Acrobat DC 2017.012.20098>

Acrobat DC 2017 인식 결과 ▶ 오탈자: 8/772, 띄어쓰기 오류: 41

Acrobat은 오늘 테스트에 사용된 제품 중 가장 큰 용량을 차지하면서 가장 무겁게 느껴지는 프로그램이지만, 한글 인식률도 OCR 속도도 가장 낮은 성능을 보여주었다. 지금까지의 테스트 결과만을 놓고 본다면 Acrobat은 단무지도 맛없고 짜장면도 맛없는 중국집이다. 하지만, Acrobat은 클리어스캔(ClearScan)이라는, PDF 용량을 획기적으로 줄이면서 가독성은 유지하는 썩 괜찮은 기술이 있다. Abbyy FindReader도 12 버전부터는 (이전부터 지원했던) MRC 압축 기술(일반적인 PDF 압축 기술)에 Abbyy PreciseScan이라는 새로운 기술을 도입했다. Abbyy PreciseScan으로 PDF를 만들면 MRC 압축보다는 파일 크기는 약간 증가하지만, 가독성은 ClearScan처럼 획기적으로 증가한다. 다만, 아쉬운 점은 Abbyy PreciseScan으로 만든 PDF 문서는 ClearScan으로 만든 문서에 비해 PDF 로딩 속도가 꽤 길다. 이것은 나처럼 태블릿으로 PDF를 볼 때 상당히 불편하다.

3. 한글 인식률 테스트 #2

두 번째 한글 인식률 테스트는 본문에 약간의 영문 이탤릭체가 포함된, 일부러 좀 까다로운 경우를 골랐다. 두 번째 테스트에서는 내가 오탈자나 띄어쓰기 오류를 직접 세지는 않았으며, OCR 완료된 텍스트를 통째로 복사해서 붙여 넣었으니 직접 비교해보길 바란다.

<한글 인식률 테스트 #2에 사용된 원본>
  • ABBYY FineReader 11 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목亞目으로 나누어,즉혹등고래와같은수염
      고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
      탁스mc가 수염을 뜻하고,케토스뇨tos가 바다 괴물을 뜻하므로,그는
      수염고래를 ‘미스티케투스즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mt/s를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자!•은 고래가 포유류라는
      것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴『자연의 체계』에서 “이런 이유에서 나는고래를물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
      두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기”,그리고 마지막으로 “자연법
      2. 어류냐,포유류냐,아니면공룡? 21
  • ABBYY FineReader 12 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목교g으로 나누어,즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
      들을 가지고 있다(〈그림 4〉). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
      ^±Lmustax7\ 수염을 뜻하고,케토스始切s가 바다 괴물을 뜻하므로,그는
      수염고래를 ‘미스티케투스배즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mws를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴『자연의 체계』에서 “이런 이유에서 나는고래를물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
      두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는수컷의 성기”,그리고 마지막으로 “자연법
      2. 어류냐,포유류냐,아니면공룡? 21
  • ABBYY FineReader 14 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목호련으로 나누어,즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
      염고꽤가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다 <〈그림 5> ). 그리스어로 무스
      탁스■《切义가 수염을 뜻하고,케토스ktos가 바다 괴물을 뜻하므로,그는
      수염고래를 ‘미스티케투스—사/cem/,즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mws를 적은 거라고
      생각하는 사람들도 있기는 하다).3>
      이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴『자연의 체계』에서 "이런 이유에서 나는고래를물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
      두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기”,그리고 마지막으로 “자연법
      2.어류냐,포유류냐,아니면공룡? 21
  • OmniPage Ultimate 19 인식 결과 펼쳐 보기
    • 에서 따라다녀야痘}다”라고 썼다.n 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목뎌소i □ 으로 나누어, 즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.Z) 아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5>). 그리스어로 무스
      탁스〃iustax가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
      수염고래를 ‘미스티케투스In)'sticetlls’, 즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐Illouse 또는 근육-muscle을 뜻하는 무스〃ills를 적은 거라고
      생각하는 사람들도 있기는 하다).시
      이렇게, 심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
      적 특징이 털과 수유라는 점을 알고 있었다. 18세기 에는 위대한 계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 있었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에 『모비 딕』을 출간했는데, 멜빌의 주인
      공인 고래잡이 이슈메일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776년에 쓴 『자연의 쳬계』에서 “이런 이유에서 나는 고래를 물고기에서
      제외한다”고 선언했다. 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. '"
      두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 있는 귀, 젖꼭지로
      젖을 먹이는 암컷의 쳬내에 삽입되는 수컷의 성기 ”, 그리고 마지막으로 "‘자연법
      z. 어류냐,포유류냐,아니면공룡? 21
  • Readiris Corporate 16 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다’’라고 썼다.l) 그는 고래목을 두 집단으로 구분하기도
      했다. 이 두 집단을 지금은 아목亞目으로 나누어, 즉 혹등고래와 같은 수염
      고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른다• 이빨고래류는 대개 이빨을 가지고 였다.2) 아리스토텔레스는 수
      염고래가 이빨은 없지만 ‘‘돼지털을 닮은 억센 털’’을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수엽, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
      들을 가지고 있다(〈그림 4〉)• 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
      의 윗입술과 턱에 냔 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
      탁스mustax가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
      수염고래를 ‘미스티케투스mysticetus', 즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육111uscle을 뜻하는 무스mus를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게, 심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 걸정
      적특징이 털과수유라는점을알고있었다.18세기에는위대한계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
      것을 알고 였었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 짐에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
      보지 못했다. 허먼 멜빌은 1851년에 『모비 딕』을 출간했는데, 멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학지들괴- 맞붙는다.
      린네는1776년에 쓴 『자연의 체계』에서 ‘‘이런 이유에서 나는고래를물고기에서
      제외한다’’고 선언했다. 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
      선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. "
      두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 였는 귀, 젖꼭지로
      젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기 "' 그리고 마지막으로 ‘‘자연법
      2. 어류냐,포유류냐,아니면공룡? 21
  • Acrobat DC 2017 인식 결과 펼쳐 보기
    • 에서 따라다녀야 한다’’라고 썼다.' ) 그는 고래목을 두 집단으로 구분하기도
      했댜 이 두 집단을지금은아목亞目으로나누어, 즉혹등고래와같은수염
      고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
      로 부른댜 이빨고래류는 대개 이빨을 가지고 있다? 아리스토텔레스는 수
      염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
      다. 수염고래는 입속에 고래수염, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
      들을 가지고 있다(〈그림 4>). 아리스토텔레스의 패지털이란 일부 수염고래
      의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5>). 그리스어로 무스
      탁스,/nusta.x가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
      수염고래를 미 스티케투스mysticetus· , 즉 수염 달린 바다 괴물이라 불렀다
      (아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mus를 적은 거라고
      생각하는 사람들도 있기는 하다).3)
      이렇게, 심지어 기원전 4세기에도 과학지들은· 포유류를 정의하는 결정
      적 특징 이 털과수유라는점을알고 있었다.18세기에는위대한계통분류학
      자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학지들은- 고래가 포유류라는
      것을 알고 있었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
      완전히 적응한 점에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
      보지 못했댜 허먼 멜빌은 1851 년에 『모비 딕 』을출간했는데, 멜빌의 주인
      공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
      린네는 1776 년에 쓴 『자연의 체계』에서 ‘‘ 이런 이유에서 나는고래를물고기에서
      제외한다’’고 선언했댜 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
      선언에도 불구하고 1850 년에 이르기까지는 여전히 고래와 바다를 공유하고 있
      었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. "
      두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 있는 귀, 젖꼭지로
      젖올 먹이는 암컷의 체내에 삽입되는 수컷의 성기", 그리고 마지막으로 “자연법
      2. 어류냐,포유류냐,아니면공룡, 21

▶ 총평

한글 본문에 알아보기 어려운 이탤릭체의 영어가 섞이니 첫 번째 테스트와는 사뭇 다른 결과가 나왔다. 일례로 '미스티케투스mysticetus'와 '亞目'라는 단어 두 개를 전부 인식한 제품은 Acrobat과 Readiris뿐이다. 첫 번째 테스트에서 가장 나쁜 결과를 보여주었던 Acrobat이 나름 선전하는 듯하나 모든 제품이 '돼지털'이라고 말할 때 혼자 '패지털'이라고 우기지를 않나, 문장 마무리를 멋대로 '-댜'로 바꾸지를 않나 여전히 맛없는 짜장면이다. 첫 번째 테스트에서 가장 좋은 결과를 보여줬던 OmniPage는 두 번째 테스트에선 고전을 면치 못했다. Abbyy는 11 제품부터 한글과 영문 이탤릭체 혼용 시 약한 모습을 보여줬는데, 14에서도 큰 진전은 없어 보인다. 그래도 11, 12 버전에서는 'mysticetus'라는 단어가 아예 인식조차 되지 않고 생략되었는데 반해 14 버전은 깨진 문자 '—사/cem/'로나마 인식하려고 애쓰는 모습을 보여주었다.

5. Abbyy FindReader 14에 대한 장점과 단점

Abbyy 제품은 한글과 영문(특히 이탤릭체) 혼용된 이미지를 OCR할 때 영문 인식률이 거의 제로에 가깝다는 단점이 있다. 이 점은 학술 용어가 난무하는 책을 작업할 때 좀 난감하다. 일일이 수정하기는 번거롭고 일정한 패턴을 보이는 것도 아니기 때문이다. 일정한 패턴을 보이면, 예를 들어 '口!음(마음)'이라면 Ctrl+H 바꾸기 기능으로 전체 문서에서 쉽게 오류를 수정할 수 있다. 하지만, 이러한 인식 문제는 한국 사용자에게만 해당되는 사항일 것이고, 한국 사용자가 그리 많지는 않을 거라고 예상해 보면 이 문제는 쉽게 개선될 것 같지는 않지만 그래도 다음 버전에서는 나아지기를 기대해 본다.

반면에 다량의 문서를 작업해 온 내가 보기엔 한글 인식률만큼은 Abbyy가 독보적이다. 버전 11부터 써온 나로서는 버전 12를 거쳐 14까지 오면서 한글 인식률이 나날이 향상되는 느낌을 받아왔다. 익숙해서인지는 모르겠지만, 설치 후 특별히 옵션을 만지작거릴 것도 별로 없으며 있다 해도 복잡하지 않다. Acrobat은 설정이 너무 복잡하고, Readiris는 아예 설정할 건덕지가 없고, OmniPage는 영문인데다가 반드시 신경 써야 할 설정이 좀 있다. 또한, 원문과 텍스트 창을 한눈에 비교하며 교정할 수 있는 Abbyy의 직관적인 인터페이스는 매우 효율적이다. Acrobat의 교정 과정은 그냥 모양뿐이고, Readiris는 노가다이며, OmniPage가 그나마 쓸만한데, 그래도 OCR 후 꼼꼼하게 교정을 거치는 사용자라면 단연코 Abbyy가 최선의 선택이다. 하물며 이번 14 버전에는 PDF 편집 프로그램인 ABBYY PDF Transformer가 통합된 것으로 보인다. 고로 이제는 Abbyy FineReader로 OCR뿐만 아니라 전문적인 PDF 편집까지 모든 작업을 하나의 플랫폼에서 끝낼 수 있게 되었다.

마지막으로 오늘 테스트한 OCR 프로그램 중 추천한다면 Abbyy FindReader 제품과 Readiris를 추천하고 싶다. OCR 후 조금이라도 교정을 거치는 사용자이거나 PDF 편집을 주로 하는 사용자라면 Abbyy FindReader 제품만 한 것이 없고, 오탈자 같은 거 신경 쓰지 않고 OCR 후 바로 PDF로 저장하는 사용자라면 좀 더 저렴한 Readiris 제품도 괜찮다.

Share:

2016년 2월 23일 화요일

Abbyy FindReader 11, 내부 프로그램 오류 ~ Src\Pdf\Exporter\Fonts\FontDescriptorlmpl.cpp

내부 프로그램 오류:
.\Src\PdfExporter\Fonts\FontDescriptorlmpl.cpp.107.

Abbyy FindReader 11에서 PDF로 저장할 때 간혹 위와 같은 오류가 뜨면서 작업이 완료되지 않을 때가 있다. 이것은 어떤 이유에서 한두 페이지가 문제를 일으킨 것인데, 어떤 페이지가 문제인지 알아내려면 아래 스샷처럼 PDF로 저장할 때 [각 페이지를 별도 파일로 만들기]로 저장하면 된다. 그러면 맨 아래 스샷처럼 어떤 페이지가 문제를 일으켰는지 쉽게 알 수 있다.

문제를 일으킨 389페이지를 삭제하고 389페이지의 원본 이미지를 다시 추가해서 OCR 한 후 다시 PDF로 저장하니 이번에는 문제없이 완료되었다.

또 다른 방법은 Abbyy FindReader 11에서 FindReader 문서로 저장한 후 그것을 Abbyy FindReader 12에서 열어 작업하면 된다.

이 리뷰는 2016년 2월 23일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2015년 12월 15일 화요일

포토샵 보정과 OCR 인식률

이번 테스트는 포토샵 보정에 따른 OCR 인식률의 변화다. 참고로 이번 테스트에 사용한 포토샵 보정 액션 OCR.atn은 이 링크에서 다운로드 할 수 있다.

무보정 원본 인식 결과

13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.

14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 214-5ᅳ20)

15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”,http://world.huanqiu.com/exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性,因此加强了對數學與工程學的投資”,http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

Color Burn 혼합 후 인식 결과

  • Color Burn 혼합 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
      14 Apple’s Jobs to Obama: “Jobs aren't coming back” to U.S., http!//www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2014-5-20)
      15 “奥巴馬在中國製造下推廣美國製造 大風吹現眞相”, http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性, 因此加强了對數學與工程學的投資”,http://energy.gov/articles/ pi.esident-s-coundl—jobs—and—competitiveness-announces-industry-leaders— commiment-double. (검색일: 2014-5-7)

Multiply 혼합 후 인식 결과

  • Multiply 혼합 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
      14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 24-5-20)
      15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”, http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性, 因此加强了對數學與工程學的投資”, http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

Level, Unsharp 보정 후 인식 결과

  • Level, Unsharp 보정 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 치-지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 히씨 못하였거나 취업을 포기함으로써 발생힘-. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포힘-하지 않았음.
      14 Apple's Jobs to Obama: “Jobs aren't coming back" to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2014-5—20)
      15 “奥巴馬在中國製造下推廣美國製造 大風吹現眞相”,http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到 /去工 業化的嚴합性,因此加强了尉數은工程^的投資",http://energy.gov/articles/ presiclent-s-council-jobs-ancl-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

High Pass 보정 후 인식 결과

  • High Pass 보정 후 인식 결과 보기
    • 13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
      14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2ᄋ14-5ᅳ20)
      15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”,http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性,因此加强了對數學與工程學的投資”,http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5ᅳ7)

간단한 이번 테스트 결과와 그동안의 경험으로 봐서는 OCR 프로그램의 눈과 사람의 눈은 달랐다. 즉, 사람의 눈에 명확하게 보이는 진하고 선이 굵은 가독성 높은 보정이 오히려 OCR 인식률을 낮추는 결과를 가져오기 때문이다.

한자나 한글 같은 경우 레벨과 언샵 보정 후에는 낮은 인식률을 보여주는 경우가 종종 있다. 지나친 보정은 글자 획을 굵게 만들어 획과 획 사이의 간격을 너무 좁히거나 겹치게 하기 때문에 자잘한 오타를 유발한다. 거꾸로 원본 상태에서는 제대로 인식하지 못한 글자를 레벨/언샵 보정 후 제대로 인식할 때도 있다. 그래서 전체 이미지에 일괄적용하기 전에 반드시 테스트가 필요하며 스캔한 책의 상태나 재질, 글자 크기에 값도 달라질 수밖에 없다. 레벨과 언샵 보정이 비록 OCR 인식률을 낮추는 경우가 있지만, 가독성은 좋아지고 스캔된 먼지나 이미지의 노이즈 같은 군더더기를 없애면서 파일 크기를 대폭 줄여준다는 장점은 있다(아래 그래프 참고).

인식률에 큰 영향을 주지 않는 보정은 블렌딩 모드와 High Pass 보정을 기초로 작업하는 것이며, 오로지 좋은 OCR 결과만을 원한다면 무보정, 또는 Color Burn 혼합(50~100%)을 약간 사용하는 것이다. 그러나 이 설정은 스캐너의 스캔 품질에 따라 달라질 여지가 많아서 OCR 작업 전에 한 페이지 정도 테스트하면서 최적의 보정 값을 얻은 다음 그 값을 전체 이미지에 일괄적용한 다음 OCR 진행하는 것을 추천한다. 참고로 이 테스트에는 ABBYY Finereader 11 버전이 사용되었다.

이 리뷰는 2015년 12월 15일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2015년 3월 8일 일요일

스캔 DPI에 따른 OCR 인식률 간단 비교 #3 ~ 신문

이번에는 신문으로 시험했다. 예제에 사용된 자료는 화성시 「시정소식지」(2015년 2월) 중에서 다른 소식보다 작은 글자 크기로 인쇄된 <생생메신저 '시민명예기자' 활동 시작!> 중 한 부분을 사용했다.

대체로 지난 두 번의 시험 결과와 크게 차이는 없지만, 특이한 것은 기사 맨 아랫줄의 '참여예산방'의 홈페이지 링크의 영문이 100DPI에서는 제대로 인식이 안 되었다. 이것은 ABBYY FineReader 11에서도 마찬가지였으며, 인식 언어를 [영어]로만 지정해야 제대로 인식했다. 그러나 이때는 인식 언어를 [영어]로만 지정했기 때문에 한글은 인식 못 한다. 이러한 점으로 미루어 한글과 영어 혼용으로 인식할 때 영어의 인식률이 조금 떨어질 수도 있는 것 같다. 참고로 ABBYY FineReader 12에서는 한글과 일본어 조합으로 인식하면 일본어를 아예 인식 못 하는 버그가 있었다. OCR만을 고려한다면 300DPI 정도면 충분하다는 생각이 든다.

2017년 11월 18일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI로 스캔한 신문 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다.

이 리뷰는 2015년 3월 8일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2015년 3월 5일 목요일

스캔 DPI에 따른 OCR 인식률 간단 비교 #2 ~ 불교경전

지난 번 「스캔 DPI에 따른 OCR 인식률 간단 비교 #1 ~ 소설책」 비교에 이어 이번에는 좀 낡고 글씨가 작은 『불교경전』의 한 페이지를 시험했다.

인쇄된 글자 크기가 크고 비교적 새책인 지난번 비교 때와는 달리 글씨가 작은 책이라 그런지 전체적으로 DPI가 높을수록 좋은 인식률을 보여준다.

첫 줄의 '많은'의 '은'을 '온'으로 인식한 것은 맨 마지막 사진에서 보듯 인쇄 상태가 썩 좋지 않기 때문에 오히려 '온'으로 인식한 것을 옳다고 봐야 한다면, 150DPI에서 '은'으로 인식한 것은 오류로 봐야 할 것 같다. 위 사진의 통계에는 이 의견을 반영하지는 않았지만 말이다. 그러나 '만족할 줄 앎'의 '앎'은 인쇄에 문제가 없었다. 고로 '앎'을 유일하게 제대로 인식한 1000DPI에서는 띄어쓰기 1회의 오류를 제외하고는 맞춤법은 100% 정확했다고 봐도 무방하다. Abbyy Finereader 도움말에 따르면 글자가 작게 인쇄된 책은 600DPI 스캔을 권장하는데, 그 말이 틀린 것은 아니다.

2017년 11월 17일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다. 흥미롭게도 띄어쓰기 오류 부분에서 12버전보다 못한 결과가 나왔다.

이 리뷰는 2015년 3월 5일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2015년 3월 3일 화요일

스캔 DPI에 따른 OCR 인식률 간단 비교 #1 ~ 소설책

복합기 평면 스캐너로 스캐한 문서의 해상도 150DPI, 300DPI, 600DPI, 1000DPI에 따른 OCR(ABBYY FineReader 12) 인식률을 간단하게 비교해 봤다. OCR에 사용한 이미지는 스캔 후 ScanTailor 보정(기울기 보정 및 텍스트 영역 선택)만 거치고 포토샵 보정은 하지 않았다. 본문에 사용한 예제는 을유문화사의 「을유세계문학전집」 중 에밀 졸라의 『꿈』의 한 페이지이며 스캐너에 따라, 그리고 스캔 옵션에 따라 각각 결과물이 다를 것이기에 그저 재미 삼아 참고 자료로 보면 될 듯싶다.

뜻밖에 150DPI에서도 꽤 좋은 인식률을 보여주었으며 보다시피 일반적인 소설책은 300DPI 정도면 OCR 작업에 무난 한 것으로 보인다. 그러나 난 첫 번째 사진과 같은 스캔 옵션에서 300DPI와 600DPI의 스캔 속도에 차이가 없어서 600DPI로 스캔한다. 참고로 책 본문의 "자신의 모습을 보는 듯도 했다."에서 '듯'을 '둣'을 인식하는 오류는 가장 빈번한 오류 중 하나이며, "대한공포로끊임없이"를 11버전에서 인식해도 여전히 띄어쓰기는 되지 않았다.

비교적 새책이고 인쇄 상태도 좋으며 글자 크기도 큰 편이기 때문에 DPI에 따른 OCR 인식률에 별 차이가 없는 것 같다. 다음번엔 좀 오래되고 글씨도 작은 책을 구해서 다시 한번 시험해 봐야 할 것 같다.

2017년 11월 17일 추가: 네이버 블로그의 글을 여기로 옮기면서 위 테스트에 사용된 600DPI 이미지를 Abbyy FineReader 14로 OCR 작업을 해보았다. Abbyy FineReader 11 및 12 버전에서 가장 빈번하게 틀리는 ''을 14 버전은 ''으로 정확하게 인식했다.

이 리뷰는 2015년 3월 3일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

Category

관심 사용자

Recent Comments

Blog Archive