2017/09/28

, ,

Abbyy Finereader 14 리뷰 | 뛰어난 한글 인식, 손쉬운 교정

뛰어난 한글 인식, 손쉬운 교정 | OCR 프로그램 Abbyy Finereader 14 간단 리뷰

들어가면서....

손수 책을 스캔해서 전자책을 제작한 다음 태블릿으로 책을 읽는 나에게 귀가 솔깃한 소식이 전서구처럼날아들어 왔다. (개인적인 견해로는) OCR 프로그램 중 가장 익숙한 교정 기능과 우수한 한글 인식률을 자랑하는 Abbyy FineReader 14를 얻을 수 있는 이벤트가 진행 중이라는 소식이었다. 그래서 혹시나 하는 기대와 설렘으로 오래간만에 OCR 프로그램에 대해 아주 간단하고 비전문적인 리뷰를 작성하게 되었다.

솔직히 잘 알지도 못하는 영역에 대해 뭔가를 써 내려간다는 것은 멋쩍기도 하고 조금은 귀찮기도 하며 부담도 상당하다. 미흡하고 부족하며 작은 부분만을 다루는 지극히 개인적인 글이 될 소지가 다분하기에 본문에 앞서 미리 읽어 볼 분들의 양해를 부탁한다.

1. OCR 소요 시간

 오늘의 메인인 한글 인식률 비교에 앞서 대표적인 OCR 프로그램들의 스캔한 이미지 100페이지에 대한 OCR 소요 시간을 테스트했다. 참고로 테스트에 사용된 사양은 구닥다리 노트북(Asus k55dr, 윈도우 서버 2016)이라는 점을 미리 알려둔다.

<스캔한 이미지 OCR 소요 시간>

오늘 테스트에 사용한 제품

ABBYY FineReader 11.0.113.164
ABBYY FineReader 12.0.101.388
ABBYY FineReader 14.0.101.624
OmniPage Ultimate 19.0
Readiris Corporate 16.0.0 Build 9472
Acrobat DC 2017.012.20098

 사실 OCR 소요 시간 테스트에 그렇게 큰 의미는 없다. OCR 프로그램에서 가장 중요한 것은 바로 글자 인식률이기 때문이다. 인식 속도는 빠르지만 인식률은 저조하다면, 중국집에서 단무지만 맛있고 짜장면은 맛이 없는 격이나 마찬가지다. 누가 단무지만 맛있는 중국집을 찾겠는가?

아무튼, 내가 직접 (캐논 복합기로) 스캔한 100페이지에 대한 OCR 소요 시간은 위와 같으며, Abbyy FineReader 제품은 인식 속도가 꾸준히 향상되고 있음이 테스트 결과에서도 뚜렷하게 나타났으며 OCR 인식 작업에 멀티코어도 제대로 활용했다. 하지만, PDF 저장 등 기타 작업에는 1CPU만 사용하는 것으로 보인다. 반면에 Acrobat은 예나 지금이나 멀티코어를 전혀 활용하지 못해 가장 느리다. Readiris 제품은 멀티코어를 활용하지만, 이미지를 불러들이는 작업에 1CPU, 불러들인 이미지를 OCR하는 과정에 1CPU를 할당했는데, 아무래도 이미지를 불러오는 작업이 일찍 끝나다 보니 결국 1CPU 하나는 놀게 된다. OmniPage Ultimate은 가장 빠른 OCR 속도를 보여준다. 참고로 위 테스트는 순수하게 OCR 인식 과정에 소요되는 시간만 측정했으며, 이미지를 불러오는 작업과 OCR 작업이 분리되지 않은, 혹은 내가 분리하지 못했던 Readiris은 어쩔 수 없이 모든 과정을 측정했다. OmniPage Ultimate는 이미지를 불러들이는 과정에서만 2분 정도 소요되었지만, 위 그래프에 2분(120s0)을 추가해도 역시 가장 빠르며 멀티코어를 가장 효율적으로 사용하는 것으로 보인다.

2. 한글 인식률 테스트 #1

한글 인식률 비교에 사용된 예제는 『산소』(닉 레인)의 135페이지(한글 인식 테스트)와 『걷는 고래』(J. G. M. ‘한스’ 테비슨)의 21페이지(한글과 영문 이탤릭체 혼용 테스트) 골랐다. 여러 페이지를 테스트해야 그만큼 정확한 비교가 가능하지만, 전문가도 아니고 귀차니즘이 발동하다 보니, 그냥 깨끗하게 스캔된 이미지 중 적당한 페이지를 골랐고 포토샵 등으로 보정도 하지 않았으며 OCR에 내장된 이미지 보정 기능도 최대한 억제했다. 너무 성의없어 보이더라도 중국집에서 빼갈과 해삼 요리를 주문하는 호탕함과 아량으로 양해 부탁한다. 하지만, 예제에 사용된 책은 정말 유익하고 재밌는 책이니만큼 한 번쯤 읽어볼 것을 추천한다.

<한글 인식률 테스트 #1에 사용된 원본>
<ABBYY FineReader 11.0.113.164>

ABBYY FineReader 11 인식 결과 ▶ 오탈자: 0/772(총 문자수), 띄어쓰기 오류: 4

오늘 테스트에 사용된 OCR 프로그램 중 가장 오래된 버전임에도 명성에 걸맞게 한글 인식률을 괜찮은 편이다. 다만, 다량의 한글 페이지를 인식하다 보면 '시실(사실)', '7]능(가능)', '71족(가족)', '口!음(마음)', '°ㅣ무(아무)' 등등 특정 단어에서 특수 문자가 혼합된 반복적인 인식 오류가 빈번하게 발견된다. 교정 과정을 통해 수정할 수 있지만, 내 스캐너의 광학 성능이 낮아서 그런 것인지, OCR 엔진 자체 문제인지는 잘 모르겠다. 다만, 버전 12, 14에서는 같은 문제가 더는 발생하지 않는 것으로 보면 역시 11 버전에 탑재된 OCR 엔진의 문제로 보인다.

<ABBYY FineReader 12.0.101.388>

ABBYY FineReader 12 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 4

한글과 일본어 혼용 시 일본어 인식이 안 되는 문제가 있지만, 한글 인식만은 버전 11보다 나은 성능을 보여준다. 한글이 이상한 특수 문자로 대치되는 오류도 거의 없다. 다만, 간혹 이미지에 따라, 혹은 포토샵 보정 결과에 따라 특정 단어가 특정 한자(必, 斗, 天, 乂)로 인식되는 오류가 있다.

<ABBYY FineReader 14.0.101.624>

ABBYY FineReader 14 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 4

오른쪽 인식 결과 창에 형광펜으로 강조 표시가 된 것은 '인식률이 낮은 문자'라는 뜻인데, 막상 오탈자는 하나도 없음에도 모두 인식률이 낮은 문자라고 표시되어 있다. 다른 이미지로도 몇 개 테스트해봤지만, 마찬가지다. 설정에 문제가 있는 것인지, 프로그램 버그인지 알 수가 없다. <-- 이 문제는 이벤트 당첨으로 받은 정식 버전에서는 발생하지 않았다. 그리고 버전 12에서 발생했던 한글과 일본어 혼용 시 일본어가 제대로 인식 안 되던 문제는 해결되었다.

<OmniPage Ultimate 19.0>

OmniPage Ultimate 19 인식 결과 ▶ 오탈자: 0/772, 띄어쓰기 오류: 1

테스트에 사용된 프로그램 중에서 Abbyy FineReader 11 다음으로 오래된 버전이 아닌가 싶다. 그럼에도 이 테스트에 한해서는 (좀 더 정확히는 이 테스트에 사용한 예제 한 페이지에 한해서는) 가장 좋은 인식률을 보여줬다.

<Readiris Corporate 16.0.0 Build 9472>

Readiris Corporate 16.0 인식 결과 ▶ 오탈자: 6/772, 띄어쓰기 오류: 36

ABBYY FineReader 14처럼 올해 나온 버전이지만, 이 테스트에서만큼은 한글 인식률은 앞선 제품들보다 저조한 모습을 보여줬다.

<Acrobat DC 2017.012.20098>

Acrobat DC 2017 인식 결과 ▶ 오탈자: 8/772, 띄어쓰기 오류: 41

Acrobat은 오늘 테스트에 사용된 제품 중 가장 큰 용량을 차지하면서 가장 무겁게 느껴지는 프로그램이지만, 한글 인식률도 OCR 속도도 가장 낮은 성능을 보여주었다. 지금까지의 테스트 결과만을 놓고 본다면 Acrobat은 단무지도 맛없고 짜장면도 맛없는 중국집이다. 하지만, Acrobat은 클리어스캔(ClearScan)이라는, PDF 용량을 획기적으로 줄이면서 가독성은 유지하는 썩 괜찮은 기술이 있다. Abbyy FindReader도 12 버전부터는 (이전부터 지원했던) MRC 압축 기술(일반적인 PDF 압축 기술)에 Abbyy PreciseScan이라는 새로운 기술을 도입했다. Abbyy PreciseScan으로 PDF를 만들면 MRC 압축보다는 파일 크기는 약간 증가하지만, 가독성은 ClearScan처럼 획기적으로 증가한다. 다만, 아쉬운 점은 Abbyy PreciseScan으로 만든 PDF 문서는 ClearScan으로 만든 문서에 비해 PDF 로딩 속도가 꽤 길다. 이것은 나처럼 태블릿으로 PDF를 볼 때 상당히 불편하다.

3. 한글 인식률 테스트 #2

두 번째 한글 인식률 테스트는 본문에 약간의 영문 이탤릭체가 포함된, 일부러 좀 까다로운 경우를 골랐다. 두 번째 테스트에서는 내가 오탈자나 띄어쓰기 오류를 직접 세지는 않았으며, OCR 완료된 텍스트를 통째로 복사해서 붙여 넣었으니 직접 비교해보길 바란다.

<한글 인식률 테스트 #2에 사용된 원본>
    ABBYY FineReader 11 인식 결과 펼쳐 보기

에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
했다. 이 두 집단을 지금은 아목亞目으로 나누어,즉혹등고래와같은수염
고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
탁스mc가 수염을 뜻하고,케토스뇨tos가 바다 괴물을 뜻하므로,그는
수염고래를 ‘미스티케투스즉 수염 달린 바다 괴물이라 불렀다
(아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mt/s를 적은 거라고
생각하는 사람들도 있기는 하다).3)
이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자!•은 고래가 포유류라는
것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
린네는 1776년에 쓴『자연의 체계』에서 “이런 이유에서 나는고래를물고기에서
제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기”,그리고 마지막으로 “자연법
2. 어류냐,포유류냐,아니면공룡? 21

    ABBYY FineReader 12 인식 결과 펼쳐 보기

에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
했다. 이 두 집단을 지금은 아목교g으로 나누어,즉 혹등고래와 같은 수염
고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
들을 가지고 있다(〈그림 4〉). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
^±Lmustax7\ 수염을 뜻하고,케토스始切s가 바다 괴물을 뜻하므로,그는
수염고래를 ‘미스티케투스배즉 수염 달린 바다 괴물이라 불렀다
(아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mws를 적은 거라고
생각하는 사람들도 있기는 하다).3)
이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
린네는 1776년에 쓴『자연의 체계』에서 “이런 이유에서 나는고래를물고기에서
제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
젖을 먹이는 암컷의 체내에 삽입되는수컷의 성기”,그리고 마지막으로 “자연법
2. 어류냐,포유류냐,아니면공룡? 21

    ABBYY FineReader 14 인식 결과 펼쳐 보기

에서 따라다녀야 한다”라고 썼다.1) 그는 고래목을 두 집단으로 구분하기도
했다. 이 두 집단을 지금은 아목호련으로 나누어,즉 혹등고래와 같은 수염
고래류를 수염고래아목으로,범고래와 같은 이빨고래류를 이빨고래아목으
로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.2〉아리스토텔레스는 수
염고꽤가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
다. 수염고래는 입속에 고래수염,즉 먹이를 거르는 데에 쓰는뿔 재질의 판
들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다 <〈그림 5> ). 그리스어로 무스
탁스■《切义가 수염을 뜻하고,케토스ktos가 바다 괴물을 뜻하므로,그는
수염고래를 ‘미스티케투스—사/cem/,즉 수염 달린 바다 괴물이라 불렀다
(아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mws를 적은 거라고
생각하는 사람들도 있기는 하다).3>
이렇게,심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
적 특징이 털과수유라는 점을 알고 있었다. 18세기에는 위대한 계통분류학
자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
것을 알고 있었는지 몰라도,일반인들은 그렇지 않았다. 고래가 수중생활에
완전히 적응한 점에 눈이 멀어,많은 이들이 고래의 진화적 기원을 제대로
보지 못했다. 허먼 멜빌은 1851년에『모비 딕』을 출간했는데,멜빌의 주인
공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
린네는 1776년에 쓴『자연의 체계』에서 "이런 이유에서 나는고래를물고기에서
제외한다”고 선언했다. 하지만 내가 알고 있기로,상어와 청어는 린네의 단호한
선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. “
두 심실이 있는온혈 심장,허파,움직이는눈꺼풀,속이 비어 있는 귀,젖꼭지로
젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기”,그리고 마지막으로 “자연법
2.어류냐,포유류냐,아니면공룡? 21

    OmniPage Ultimate 19 인식 결과 펼쳐 보기

에서 따라다녀야痘}다”라고 썼다.n 그는 고래목을 두 집단으로 구분하기도
했다. 이 두 집단을 지금은 아목뎌소i □ 으로 나누어, 즉 혹등고래와 같은 수염
고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
로 부른다. 이빨고래류는 대개 이빨을 가지고 있다.Z) 아리스토텔레스는 수
염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
다. 수염고래는 입속에 고래수염, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
들을 가지고 있다(〈그림 4>). 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5>). 그리스어로 무스
탁스〃iustax가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
수염고래를 ‘미스티케투스In)'sticetlls’, 즉 수염 달린 바다 괴물이라 불렀다
(아리스토텔레스는 생쥐Illouse 또는 근육-muscle을 뜻하는 무스〃ills를 적은 거라고
생각하는 사람들도 있기는 하다).시
이렇게, 심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 결정
적 특징이 털과 수유라는 점을 알고 있었다. 18세기 에는 위대한 계통분류학
자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
것을 알고 있었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
완전히 적응한 점에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
보지 못했다. 허먼 멜빌은 1851년에 『모비 딕』을 출간했는데, 멜빌의 주인
공인 고래잡이 이슈메일은 다음과 같이 과학자들과 맞붙는다.
린네는 1776년에 쓴 『자연의 쳬계』에서 “이런 이유에서 나는 고래를 물고기에서
제외한다”고 선언했다. 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. '"
두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 있는 귀, 젖꼭지로
젖을 먹이는 암컷의 쳬내에 삽입되는 수컷의 성기 ”, 그리고 마지막으로 "‘자연법
z. 어류냐,포유류냐,아니면공룡? 21

    Readiris Corporate 16 인식 결과 펼쳐 보기

에서 따라다녀야 한다’’라고 썼다.l) 그는 고래목을 두 집단으로 구분하기도
했다. 이 두 집단을 지금은 아목亞目으로 나누어, 즉 혹등고래와 같은 수염
고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
로 부른다• 이빨고래류는 대개 이빨을 가지고 였다.2) 아리스토텔레스는 수
염고래가 이빨은 없지만 ‘‘돼지털을 닮은 억센 털’’을 가지고 있는 걸 관찰했
다. 수염고래는 입속에 고래수엽, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
들을 가지고 있다(〈그림 4〉)• 아리스토텔레스의 ‘돼지털’이란 일부 수염고래
의 윗입술과 턱에 냔 듬성듬성한 털을 가리킨다(〈그림 5〉). 그리스어로 무스
탁스mustax가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
수염고래를 ‘미스티케투스mysticetus', 즉 수염 달린 바다 괴물이라 불렀다
(아리스토텔레스는 생쥐mouse 또는 근육111uscle을 뜻하는 무스mus를 적은 거라고
생각하는 사람들도 있기는 하다).3)
이렇게, 심지어 기원전 4세기에도 과학자들은 포유류를 정의하는 걸정
적특징이 털과수유라는점을알고있었다.18세기에는위대한계통분류학
자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학자들은 고래가 포유류라는
것을 알고 였었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
완전히 적응한 짐에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
보지 못했다. 허먼 멜빌은 1851년에 『모비 딕』을 출간했는데, 멜빌의 주인
공인 고래잡이 이슈메 일은 다음과 같이 과학지들괴- 맞붙는다.
린네는1776년에 쓴 『자연의 체계』에서 ‘‘이런 이유에서 나는고래를물고기에서
제외한다’’고 선언했다. 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
선언에도 불구하고 1850년에 이르기까지는 여전히 고래와 바다를 공유하고 있
었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. "
두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 였는 귀, 젖꼭지로
젖을 먹이는 암컷의 체내에 삽입되는 수컷의 성기 "' 그리고 마지막으로 ‘‘자연법
2. 어류냐,포유류냐,아니면공룡? 21

    Acrobat DC 2017 인식 결과 펼쳐 보기

에서 따라다녀야 한다’’라고 썼다.' ) 그는 고래목을 두 집단으로 구분하기도
했댜 이 두 집단을지금은아목亞目으로나누어, 즉혹등고래와같은수염
고래류를 수염고래아목으로, 범고래와 같은 이빨고래류를 이빨고래아목으
로 부른댜 이빨고래류는 대개 이빨을 가지고 있다? 아리스토텔레스는 수
염고래가 이빨은 없지만 “돼지털을 닮은 억센 털”을 가지고 있는 걸 관찰했
다. 수염고래는 입속에 고래수염, 즉 먹이를 거르는 데에 쓰는 뿔 재질의 판
들을 가지고 있다(〈그림 4>). 아리스토텔레스의 패지털이란 일부 수염고래
의 윗입술과 턱에 난 듬성듬성한 털을 가리킨다(〈그림 5>). 그리스어로 무스
탁스,/nusta.x가 수염을 뜻하고, 케토스ketos가 바다 괴물을 뜻하므로, 그는
수염고래를 미 스티케투스mysticetus· , 즉 수염 달린 바다 괴물이라 불렀다
(아리스토텔레스는 생쥐mouse 또는 근육muscle을 뜻하는 무스mus를 적은 거라고
생각하는 사람들도 있기는 하다).3)
이렇게, 심지어 기원전 4세기에도 과학지들은· 포유류를 정의하는 결정
적 특징 이 털과수유라는점을알고 있었다.18세기에는위대한계통분류학
자 칼 폰 린네가 이 관점을 굳혔다. 하지만 과학지들은- 고래가 포유류라는
것을 알고 있었는지 몰라도, 일반인들은 그렇지 않았다. 고래가 수중생활에
완전히 적응한 점에 눈이 멀어, 많은 이들이 고래의 진화적 기원을 제대로
보지 못했댜 허먼 멜빌은 1851 년에 『모비 딕 』을출간했는데, 멜빌의 주인
공인 고래잡이 이슈메 일은 다음과 같이 과학자들과 맞붙는다.
린네는 1776 년에 쓴 『자연의 체계』에서 ‘‘ 이런 이유에서 나는고래를물고기에서
제외한다’’고 선언했댜 하지만 내가 알고 있기로, 상어와 청어는 린네의 단호한
선언에도 불구하고 1850 년에 이르기까지는 여전히 고래와 바다를 공유하고 있
었다. 고래를 바다에서 추방하려 한 근거를 린네는 다음과 같이 말하고 있다. "
두 심실이 있는 온혈 심장, 허파, 움직이는 눈꺼풀, 속이 비어 있는 귀, 젖꼭지로
젖올 먹이는 암컷의 체내에 삽입되는 수컷의 성기", 그리고 마지막으로 “자연법
2. 어류냐,포유류냐,아니면공룡, 21

▶ 총평

한글 본문에 알아보기 어려운 이탤릭체의 영어가 섞이니 첫 번째 테스트와는 사뭇 다른 결과가 나왔다. 일례로 '미스티케투스mysticetus'와 '亞目'라는 단어 두 개를 전부 인식한 제품은 Acrobat과 Readiris뿐이다. 첫 번째 테스트에서 가장 나쁜 결과를 보여주었던 Acrobat이 나름 선전하는 듯하나 모든 제품이 '돼지털'이라고 말할 때 혼자 '패지털'이라고 우기지를 않나, 문장 마무리를 멋대로 '-댜'로 바꾸지를 않나 여전히 맛없는 짜장면이다. 첫 번째 테스트에서 가장 좋은 결과를 보여줬던 OmniPage는 두 번째 테스트에선 고전을 면치 못했다. Abbyy는 11 제품부터 한글과 영문 이탤릭체 혼용 시 약한 모습을 보여줬는데, 14에서도 큰 진전은 없어 보인다. 그래도 11, 12 버전에서는 'mysticetus'라는 단어가 아예 인식조차 되지 않고 생략되었는데 반해 14 버전은 깨진 문자 '—사/cem/'로나마 인식하려고 애쓰는 모습을 보여주었다.

5. Abbyy FindReader 14에 대한 장점과 단점

Abbyy 제품은 한글과 영문(특히 이탤릭체) 혼용된 이미지를 OCR할 때 영문 인식률이 거의 제로에 가깝다는 단점이 있다. 이 점은 학술 용어가 난무하는 책을 작업할 때 좀 난감하다. 일일이 수정하기는 번거롭고 일정한 패턴을 보이는 것도 아니기 때문이다. 일정한 패턴을 보이면, 예를 들어 '口!음(마음)'이라면 Ctrl+H 바꾸기 기능으로 전체 문서에서 쉽게 오류를 수정할 수 있다. 하지만, 이러한 인식 문제는 한국 사용자에게만 해당되는 사항일 것이고, 한국 사용자가 그리 많지는 않을 거라고 예상해 보면 이 문제는 쉽게 개선될 것 같지는 않지만 그래도 다음 버전에서는 나아지기를 기대해 본다.

반면에 다량의 문서를 작업해 온 내가 보기엔 한글 인식률만큼은 Abbyy가 독보적이다. 버전 11부터 써온 나로서는 버전 12를 거쳐 14까지 오면서 한글 인식률이 나날이 향상되는 느낌을 받아왔다. 익숙해서인지는 모르겠지만, 설치 후 특별히 옵션을 만지작거릴 것도 별로 없으며 있다 해도 복잡하지 않다. Acrobat은 설정이 너무 복잡하고, Readiris는 아예 설정할 건덕지가 없고, OmniPage는 영문인데다가 반드시 신경 써야 할 설정이 좀 있다. 또한, 원문과 텍스트 창을 한눈에 비교하며 교정할 수 있는 Abbyy의 직관적인 인터페이스는 매우 효율적이다. Acrobat의 교정 과정은 그냥 모양뿐이고, Readiris는 노가다이며, OmniPage가 그나마 쓸만한데, 그래도 OCR 후 꼼꼼하게 교정을 거치는 사용자라면 단연코 Abbyy가 최선의 선택이다. 하물며 이번 14 버전에는 PDF 편집 프로그램인 ABBYY PDF Transformer가 통합된 것으로 보인다. 고로 이제는 Abbyy FineReader로 OCR뿐만 아니라 전문적인 PDF 편집까지 모든 작업을 하나의 플랫폼에서 끝낼 수 있게 되었다.

마지막으로 오늘 테스트한 OCR 프로그램 중 추천한다면 Abbyy FindReader 제품과 Readiris를 추천하고 싶다. OCR 후 조금이라도 교정을 거치는 사용자이거나 PDF 편집을 주로 하는 사용자라면 Abbyy FindReader 제품만 한 것이 없고, 오탈자 같은 거 신경 쓰지 않고 OCR 후 바로 PDF로 저장하는 사용자라면 좀 더 저렴한 Readiris 제품도 괜찮다.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

댓글 4개:

  1. 꼭 필요한 내용이었는데 좋은 글 감사합니다. ^^

    답글삭제
  2. abbyy 옵션을 찾다 들렷습니다. 꾸벅.

    답글삭제
    답글
    1. 반갑습니다. 그런데 대충 갈겨 쓴 글들뿐이라 원하시는 정보를 찾으셨는지 걱정이네요.

      삭제

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요