2014/07/03

, ,

종이책을 스캔해서 전자책(PDF) 만들기 | 5. ABBYY FineReader 11을 이용한 OCR 및 PDF 만들기

종이책을 스캔해서 전자책(PDF) 만들기 | 5. ABBYY FineReader 11을 이용한 OCR 및 PDF 만들기

지난 번 「종이책을 스캔해서 전자책(PDF) 만들기 ~ 4. OCR과 가독성을 위한 포토샵 보정 작업」에서 생성한 출력물을 가지고 OCR 및 PDF를 만드느 시간이다. OCR(문서인식) 프로그램은 Adobe Acrobat XL, OmniPage 등을 포함하여 여러 가지가 있지만, 이것저것 한 번씩 사용해 본 결과 가장 우수한 것은 ABBYY FineReader 11이었다(이 글을 옮기는 2017년 11월 12일 현재에는 ABBYY FineReader 14 버전을 사용 중). 무엇보다 한글 인식률이 좋지만, 인식 후 사용자가 프로그램이 인식한 내용을 자유롭고 편리하게 수정할 수 있으며 인식 결과물을 다양한 문서 포맷(docx, doc, rtf, odt, pdf, htm, txt, xlsx, xls, pptx, csv, fb2, epub, djvu 출력 지원)으로 출력할 수 있다.

아래 스샷은 ABBYY FineReader 11의 메인 화면

앞에서 최종적으로 포토샵 보정까지 끝난 파일들을 불러오기 전에 일단 메뉴의 [도구] - [설정]을 잠깐 살펴보자.

[설정]의 첫 번째 탭은 [문서] 설정이다.

인식에 사용할 언어를 편집할 수 있으며 한글판으로 설치되었다면 기본적으로 [한국어 및 영어]가 선택되어 있다. 또한, 이 [한국어]는 한자도 인식한다. 스캔한 문서에 한글, 한자 및 영어 외에 다른 언어가 포함되어 있다면 [언어 편집]을 통해 추가해줘야 정확한 인식이 가능하다.

[설정]의 두 번째 탭은 [스캔/열기] 설정이다.

[획득한 페이지 이미지 자동 인식]은 이미지 파일을 불러올 때 [이미지 전처리] 설정에 선택된 작업들을 한 후 이미지에 포함된 그림, 글자, 표 등을 분석하고 인식작업까지 한다.

[획득한 페이지 이미지 자동 분석]은 이미지 파일을 불러올 때 [이미지 전처리] 설정에 선택된 작업들을 한 후 이미지에 포함된 그림, 글자, 표 등을 분석하지만, 인식작업은 하지 않는다.

[획득한 페이지 이미지 자동 인식 및 분석 안 함]은 이미지 파일을 불러올 때 [이미지 전처리] 설정에 선택된 작업들만 하고 분석 및 인식은 하지 않는다.

[이미지 전처리] 설정은 ABBYY FineReader에서 바로 스캔해 문서로 인식할 때 유용한 설정이지만, Scan Tailor와 포토샵 보정을 마친 이미지에는 굳이 필요가 없는 설정 이기도 하다.

[이미지 전처리 사용]은 노이즈 제거, 기울어짐 보정, 텍스트 라인 바르게 및 부등변 사각형태 일그러짐 보정과 같은 작업을 자동으로 한다.

[페이지 방향 검색]은 Scan Tailor의 [Fix Orientation]처럼 페이지의 올바른 방향을 자동으로 잡아준다.

[맞붙은 페이지 분할]은 Scan Tailor의 [Split Pages]처럼 페이지를 자동으로 분할한다.


[설정]의 세 번째 탭은 [인식] 설정이다.

[인식 모드]는 [정밀 인식]을 사용해야 인식률이 높다.

[훈련]에서 패턴 설정은 한글은 지원하지 않기 때문에 사용할 일은 없다.

이제 메인 화면의 [이미지/PDF 열기]로 포토샵 보정을 마친 이미지 파일들을 불러온다. Ctrl+A를 누르면 모든 파일을 쉽게 선택할 수 있다.

ABBYY FineReader가 이미지를 불러들이면서 분석 및 인식 작업까지 진행하게 된다.

ABBYY FineReader는 다중 프로세서를 지원하기 때문에 CPU가 많을수록 인식 시간은 단축된다. 필자의 AMD 트리니티 듀얼 코어 노트북으로 400페이지 정도를 인식하는 데 걸리는 시간은 대략 30분 조금 못 미친다. 또한, 인식에 사용할 언어를 많이 추가할수록 시간이 많이 걸리기도 한다.

인식이 완료되면 일단 메뉴의 [파일] - [FineReader 문서 저장]을 통해 저장해둔다. 이렇게 한 번 저장이 되면 사용자가 수정할 때마다 자동으로 저장되니 따로 나중에 저장할 필요는 없다. 일반 하드디스크라면 조금 시간이 걸리는 작업이다.

인식된 페이지들을 살펴보면 빨간색은 그림 영역으로 , 녹색은 텍스트 영역으로, 파란색은 표 영역으로 인식 된 것이다. 표나 글자로 인식된 부분과는 달리 그림으로 인식된 부분은 그냥 일반 이미지 파일로 PDF에 저장된다. 이러한 부분은 OCR의 장점인 텍스트 선택이 안 된다. 영역 설정은 사용자 임의 선택이 가능하지만, 대부분 ABBYY FineReader가 분석 및 인식 작업을 통해 알아서 잘 잡아준다.

그냥 이 상태에서 [저장]을 통해 PDF 문서로 만들어도 되지만, 나는 Scan Tailor에서 했던 것처럼 키보드의 [Page Down]을 이용해 빠르게 흩어내려 가면서 아래 사진처럼 미흡한 부분을 수정한다.

아래 사진은 글자 영역을 그림(빨간색) 영역으로 잘못 인식한 경우이다. 이럴 때에는 드래그 앤 드롭으로 글자 부분을 넉넉하게 선택한 다음 Ctrl+2를 눌러 영역을 텍스트로 지정하고(Ctrl+3은 그림, Ctrl+4는 표) Ctrl+Shift+B를 눌러 다시 인식해준다.

메인 화면의 우측에 보이는 글자들은 ABBYY FineReader가 이미지를 문자로 인식한 내용이다. 한글 인식률은 어림짐작 92% 이상으로 매우 높은 편이지만(600DPI 스캔 후 포토샵으로 가독성 보정한 이미지), 띄어 씌기나 오타 등의 인식 오류가 아예 없는 것은 아니다. 예로 들면 '사실'이라는 단어를 '시실'로 잘못 인식하는 경우가 많았다. 이럴 때엔 Ctrl+H로 [바꾸기] 창을 불러온 다음 '시실'을 '사실'로 전부 바꿔주면 된다. 또는, ABBYY FineReader의 [검증] 기능을 사용할 수 있다.

이러한 방법으로 잘못된 글자와 띄어쓰기 오류들을 일일이 다 수정할 수 있지만, 시간이 오래 걸리니 취향과 필요에 따라 적절하게 작업을 하면 된다. 사용자의 손이 많이 간 PDF는 오디오북으로 활용하면서 들을 때 더 정확한 듣기가 가능하나, 한글 듣기 능력에 특별한 문제가 없는 사람이라면 수정 없이 기본 상태로 저장된 PDF라도 책을 이해할 수 있을 만큼의 음성 듣기는 가능할 정도로 ABBYY FineReader의 인식률은 훌륭하다. 만약 원본과 토씨, 띄어쓰기 하나 틀리지 않게 완벽하게 수정한다면 TXT, DOC 등으로 저장해(인쇄하기 전 원고나 다름없는) 인터넷 서점에서 파는 eBook을 능가하는 고품질, 고활용의 전자책도 가능하다.

제 최종적인 PDF 출력이 남았다

주 도구 모음에 있는 [PDF 저장]을 클릭한 다음 [설정]으로 들어간다. ([저장 모드]에 대한 설명은 「ABBYY FineReader PDF 저장 옵션 중 [저장 모드]에 대하여」를, [이미지 설정]의 [품질]에 대해서는 「ABBYY FineReader PDF 저장 옵션 중 [이미지 설정 ('무손실'과 '손실')]에 대하여」를 참고)

일단 [Mixed Raster Content 사용]을 체크해제하고 [이미지 설정]에서 [사용자 지정]으로 들어간다.

원본 보존용(원본 이미지 보관을 위해 꼭 이 방법이 아니라 Scan Tailor 작업만 완료한 이미지나 포토샵 보정을 마친 이미지만 따로 보관해도 된다)으로 만들 PDF를 위해 [해상도]는 [원본]을 선택하고 [색상 조정]이나 [품질] 역시 아래 사진처럼 설정한다. 작업이 어느 정도 익숙해지면 여기 설정들을 조절해서 적당한 크기의 PDF 파일을 만들 수 있다. 그러나 [품질]에서 이미지 압축을 사용하면 태블릿 등에서 PDF를 불러와 페이지를 넘길 때 압축을 하지 않았을 때보다 조금 딜레이가 있다.

설정을 완료하면 [저장]을 통해 PDF 파일을 만든다.

같은 방법으로 이번에는 300DPI PDF를 만든다. 파일 이름은 적당히 정해주면 된다. 필자는 '책이름(300).pdf 이런 식으로 이름을 만든다. 보통 300DPI PDF는 원본 600DPI의 절반 정도 크기가 된다.

그리고 최종적으로 '저용량' PDF 문서를 만들 차례다. 필요 없으면 안 만들어도 상관없다. 필자는 앞의 300DPI와 600DPI PDF 문서들을 부족한 하드 용량에 다 보관할 수가 없어 따로 '저용량' PDF를 만들어 빠르게 본문을 흩어볼 일이 있을 때 사용한다. [사용자 지정]에서 [해상도] 등은 위의 원본 보존용처럼 설정한 다음 [저장] 설정에서 아래 사진처럼 [Mixed Raster Content 사용]을 체크한다. 아마도 이 설정은 인식된 글자들을 아마도 벡터 이미지로 바꿔 용량을 줄이는 고압축 방법인 것 같다.

이 글을 작성하면서 만든 416페이지 PDF 책의 용량을 보면 아래 그림과 같다.

원본 보존용으로 600DPI 무압축 설정으로 저장한 PDF 파일은 405M, 300DPI PDF 파일은 180M, 그리고 [Mixed Raster Content 사용]을 이용한 PDF 파일을 14.9M, Acrobat [ClearScan]으로 만든 PDF 파일은 66.3M이다. 그리고 포토샵 보정을 마친 416개 이미지 파일의 총용량은 455M이다.

획기적으로 PDF 용량을 줄이는 방법으로 Adobe Acrobat의 [ClearScan] OCR 인식이 있으나 한글 및 한자 인식률이 ABBYY FineReader에 비해 떨어지고 오랫동안 사용한 ABBYY FineReader에 익숙해서 ABBYY FineReader를 사용한다. 그러나 PDF 편집은 ABBYY FineReader에서 할 수 없기 때문에 Acrobat 등을 사용하면 된다. OCR 작업은 취향에 따라 Acrobat을 사용해도 무방하나, Acrobat은 OCR 작업할 때 아직 다중 프로세서를 지원하지 않기 때문에 시간이 좀 더 걸린다.

이제 남은 것은 완성된 PDF 파일을 Acrobat 같은 PDF 편집 프로그램으로 보안설정이나 [책갈피] 등을 추가하여 완성도를 높이는 것이다. 즐겁고 편안한 독서를 위한 지루한 모든 과정은 끝났다. 만약을 위해 클라우드 등에 백업하는 것을 잊지 말고 이제 기꺼운 마음으로 전자책을 펼치자.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요