책도 읽고, 영화도 보고, 그리고 일상적인 생각을 쓰고. 이 모든 것을 음악을 들으며.

Recent Comments

2014. 7. 16.

ABBYY FineReader PDF 저장 옵션 중 [이미지 설정 ('무손실'과 '손실')]에 대하여

이번에는 ABBYY FineReader 11에서 PDF로 저장할 때 파일 크기를 줄이는 여러 방법의 하나인 [이미지 설정]의 [품질]에서 손실 압축 품질(%)에 따른 파일 크기와 이 PDF 파일을 넥서스 7(2013)에서 ezPDF Reader로 열었을 때의 로딩 시간(수동 측정, 총 세 번씩 측정해서 가장 작은 값을 사용)을 살펴보자. (스캔한 원본 이미지 TIFF 파일 크기는 939k)

우선 파일 크기를 살펴보면, 이상하게도 [품질 손실이 허용되지 않음](무손실) 설정보다 [품질 손실이 허용됨]에서 품질 100%로 설정했을 때의 파일 크기가 제일 크다. 그리고 품질이 낮아질수록 파일 크기도 작아지고 로딩 시간도 짧아진다. 그래서 품질이 40%~20% 사이에서 600DPI 무손실 파일의 절반 정도 크기로 도달함을 유추해 볼 수 있다. 파일 크기 면에서는 역시 MRC(Mixed Raster Content)가 제일 작고 로딩 속도는 300DPI 무손실이 가장 빠르다. 그다음으로는 600DPI 무손실이 빠르다. 로딩 속도는 무손실 즉, 무압축을 적용한 PDF가 압축 해제애 따른 CPU 리소스를 적게 사용하는 만큼 로딩 속도도 빠른 것 같다.

그렇다면, 원본 보존을 위한 600DPI 무손실을 제외하고 휴대용 기기를 위한 가장 최적의 설정은 어떤 것일까.

아래 사진은 위 테스트에 사용된 각각의 PDF 파일들을 윈도우의 PDF-XChange Viewer로 불러들인 다음 순서대로 300%, 1,200%, 3,200% 확대한 것을 캡쳐해서 저장한 화면이다(이미지를 클릭하면 원본 보기 가능).

3,200% 확대한 부분을 보면 품질 60%까지는 그럭저럭 괜찮다고 품질 40%부터 노이즈가 조금씩 눈에 띄기 시작해서 품질 20%부터는 눈에 거슬릴 정도로 많아진다. 그래도 품질 20%로 저장한 PDF 가독성이 300DPI 무손실 PDF보다 나아 보인다. 그러므로 휴대기기에서의 PDF 로딩 속도에 크게 구애받지 않는 환경이라면(대부분의 안드로이드 PDF 리더는 다음 페이지를 미리 렌더링하기 때문에 한 페이지씩 순서대로 읽는다면 로딩 속도는 크게 신경 쓸 필요는 없다), 300DPI 무손실보다는 600DPI 품질 20%가 가독성도 우수하고 파일 크기도 작다. 그러나 내가 넥서스에서 실제로 확대해서 봤을 때 품질 20%보다는 최소 품질 40% 이상을 권장한다. PDF 글자 획 주변에 노이즈가 적을 수록, 가독성이 높을수록 태블릿 등으로 장시간 책을 읽을 때 눈의 피로가 덜한 것 같기 때문이다.

고로 가독성과 파일 크기 둘 다 고려한 최적의 설정은 품질 40%~60% 정도가 될 것 같다 . 품질 60%를 넘어서면 위 그래프에서 보듯 파일 크기의 증가율이 높다. 그리고 좀 더 작은 파일 크기에 신경을 쓴다면 품질 20~30% 정도가 적당할 것 같다.

이 리뷰는 2014년 7월 16일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2014. 7. 15.

ABBYY FineReader PDF 저장 옵션 중 [저장 모드]에 대하여

ABBYY FineReader에서 인식한 문서를 PDF로 저장할 때 사용자는 [저장 모드]를 선택할 수 있는데, 이 [저장 모드]에 따라 실제로 PDF의 파일 크기와 뷰어를 통해 볼 때 가독성에서 아주 큰 차이가 난다.

1. 보통 사용하는 모드는 기본 값으로 설정된 [페이지 이미지 밑에 텍스트]

[페이지 이미지 밑에 텍스트](Text under the page image) [저장 모드]는 ABBYY FineReader 메인 인터페이스 화면의 왼쪽에 자리한 이미지 레이어(포토샵에서 활용되는 'layer' 개념과 비슷하다)가 PDF 문서 가장 위로 오고, 그 밑에 OCR로 인식된 텍스트 레이어가 위치하게 된다. 그래서 PDF 뷰어를 통해 보게 되는 화면은 이미지 형태의 글자이지만, 드래그 기능으로 텍스트를 선택할 수 있는 것은 이미지 밑에 있는 텍스트 레이어가 숨어 있기 때문에 가능하다. 하지만, 위의 스샷처럼 OCR 미인식된 빨간 부분은 PDF 뷰어에서 이미지 형태로 보이기는 하지만 드래그로 텍스트 선택은 할 수 없다.

2. [페이지 이미지 위에 텍스트(Text over page image)]

ABBYY FineReader가 인식한 텍스트 레이어를 최상위층에 올림으로써 (이미지 레이어는 그 아래) txt, doc 등의 문서를 PDF로 저장한 것과 같은 가독성을 보여주는 [저장 모드]다. 그러나 OCR 작업 결과물에서 띄어쓰기 오류나 오탈자를 수정하지 않았다면 그것 역시 그대로 보여주는 단점이 있다. 미인식된(빨간 네모) 부분은 포토샵 레이어 마스크처럼 작동하여 이미지 레이어에 있는 이미지로 대체된다. (스샷만으로는 잘 확인할 수 없지만) 원본으로 저장했을 때는 미인식된 부분도 txt만큼이나 훌륭한 가독성을 보여주지만, MRC로 압축해서 저장했을 때는 미인식된 부분이 눈에 띄게 티가 난다.

3. [페이지 이미지만(Page image only)]

ABBYY FineReader 메인 인터페이스 화면 왼쪽에 보이는 이미지 레이어만 PDF로 저장된다(이 설정을 선호한다면 굳이 시간을 들여 OCR을 할 필요가 없고, 마찬가지로 ABBYY FineReader를 사용할 필요도 없다). OCR된 텍스트는 빠지기 때문에 당연히 PDF 뷰어에서 드래그로 텍스트를 선택할 수 없고, 본문 검색도 할 수 없다. 한마디로 OCR의 장점을 모두 버리는 [저장 모드]다(2017년 11월 14일 추가: 그래서 그런지 Abbyy Finereader 14에서는 이 옵션이 아예 빠졌다. 본문 마지막 스샷 확인).

4. [텍스트와 그림만(Text and pictures only)]

ABBYY FineReader 메인 인터페이스 화면 우측의 OCR된 텍스트 레이어와 왼쪽의 이미지 레이어 부분에서 [영역 유형]이 그림 영역(문서 본문에 삽입된 도표, 삽화, 그래프 등으로 반투명한 빨간색으로 지정된 영역)으로 설정된 부분만 PDF로 저장된다. 그래서 위 네 가지 설정 중 파일 크기가 가장 작다. OCR된 텍스트 레이어가 PDF 뷰어에서 보이기 때문에 가독성은 [페이지 이미지 위에 텍스트]와 같으나 대신 이미지 레이어 부분이 빠졌기 때문에 위 스샷의 빨간 사각형으로 표시한 부분처럼 인식이 안 된 부분은 PDF 뷰어에서 아예 볼 수가 없게 된다.

아래 그림은 스캔한 이미지 중 한 페이지 분량을 위의 네 가지 설정으로 각각 저장한 다음 PDF의 파일 크기를 비교한 그래프이다.

[텍스트 및 그림만]으로 저장한 PDF의 파일 크기가 가장 작고, 그다음으로는 [페이지 이미지 위에 텍스트]이다. [페이지 이미지 위에 텍스트] 설정의 파일 크기가 이미지가 포함됨에도 뒤에 따르는 두 파일에 비해 상당히 작은 것은 OCR 인식된 부분은 텍스트 레이어로 저장하면서 동시에 인식된 텍스트 이미지는 버리기 때문인 것 같다. 또한, 인식하지 못한 부분은 이미지로 대체하기 때문에 [텍스트 및 그림만]보다는 용량이 크다.

마지막으로, 안드로이드 PDF 어플 중에 ezPDF Reader는 아래 스샷처럼 OCR된 PDF 문서에서 텍스트 레이어만 볼 수 있는 기능을 제공하고 있다. 바로 [텍스트 리플로우(Text Reflow)]인데, 이 기능으로 문서를 보면 일반 문서(txt, doc) 등을 보는 것과 다를 바가 없는 매우 뛰어난 가독성을 제공한다. 그러나 (OCR 후 텍스트 오류를 수정하지 않았다면) 띄어쓰기 오류, 오탈자, 미인식된 글자 생략 등의 단점도 있다.

이 리뷰는 2014년 7월 15일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2014. 7. 12.

ABBYY FineReader 12, 14 한글 문서 [이미지 전처리] 문제

ABBYY FineReader 12 평가판은 [ABBYY FineReader 12 Professional Edition Try]에서 무료로 내려받을 수 있고, 설치 후 30일간 사용 / 최대 100페이지까지 변환, 한번에 3 페이지만 파일 저장 및 내보내기 제한 등의 기능 제한이 있다.

아무튼, ABBYY FineReader 12를 시험 삼아 사용하다 한글 문서 이미지에 한하여 [이미지 전처리] 기능의 문제점을 발견했다.

우선 위 사진처럼 [텍스트 라인 직선화]에 체크하고 스캔한 한글 문서 이미지를 열면, 아래 사진처럼 문서가 심하게 일그러진다. 테스트에 사용된 이미지는 「종이책을 스캔해서 전자책(PDF) 만들기 ~ 2. Scan Tailor를 이용한 다듬기 작업 #1」 예제에 사용되어 Scan Tailor와 포토샵 보정을 마친 깔끔한 이미지이다.

하지만, 스캔한 영문 문서 이미지에서는 위와 같은 문제점은 없었다.

또한, [이미지 전처리] 기능 중의 [맞붙은 페이지 분할]과 [페이지 방향 검색]은 제대로 작동하나 Scan Tailor와 포토샵 작업을 거치지 않은 스캔한 한글 문서 이미지 원본(아래 사진)을 [이미지 전처리]는 기본값으로 설정한 상태에서 다시 한 번 테스트해봤다.


위 동영상에서 보듯 [텍스트 라인 직선화] 설정을 사용하지 않았는데도 [이미지 전처리]를 거친 문서는 심하게 일그러졌다. 역시 이번에도 스캔한 영문 문서 이미지는 아무 문제 없이 페이지가 잘 분리되었다.

이와 같은 현상이 스캔한 한글 문서 이미지 전체에 걸친 문제인지, 아니면 스캐너 특성을 타는 것인지는 잘 모르겠지만, 위의 두 테스트를 ABBYY FineReader 11에서 했을 땐 아무 문제점을 발견할 수 없었다.

2017년 11월 15일 추가: 바로 위 스샷에서 보듯 [텍스트 라인 직선화] 문제는 Abbyy FineReader 14 정품에서도 발생한다. 하지만, 권장/기본 설정으로 이미지 전처리를 진행하면 텍스트 기울기도 어느 정도 바르게 맞춰지고 페이지 분리도 깔끔하게 재단된다. (ABBYY FineReader 14Corporate 시험판 다운로드)

이 리뷰는 2014년 7월 12일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2014. 7. 11.

종이책을 스캔해서 전자책(PDF) 만들기 - 7. 자작 PDF를 태블릿에서 봤을 때 가독성 및 로딩 속도 비교

종이책을 스캔해서 전자책(PDF) 만들기 ~ 1. 스캔」을 시작으로 종이책 스캔, 스캔 후 이미지 처리와 보정, OCR 작업 및 PDF 출력 등 자작 전자책(PDF)에 대한 별볼일없는 글들을 선보였다. 이번에는 이렇게 해서 완성한, 그리고 다양한 저장 설정으로 출력한 PDF 파일을 태블릿(넥서스 7 2013)에서 ezPDF Reader로 열었을 때의 화면을 스크린샷으로 저장하여 비교해 보았다. 하나는 넥서스 화면 크기에 자동으로 맞추어 356% 확대된 화면의 스크린샷이고 또 다른 하나는 ezPDF Reader에서 수동으로 1,200% 확대한 화면이다. 이 스크린샷들을 윈도우로 옮겨 XnView에서 100% 확대했다. 그러나 스크린샷이기 때문에 실제로 보는 것과는 차이가 날 수도 있다.

또한, 앞의 5개의 PDF 결과물에 ABBYY FineReader 12의 새 PDF 저장 설정인 [ABBYY 정밀 스캔을 적용하여 이미지에서 문자를 부드럽게 처리](기존의 MRC에서 좀 더 발전한 버전)를 적용한 PDF를 하나 더 추가했다. 미리 말하자면 이 설정으로 저장한 PDF는 Acrobat의 [ClearScan]의 결과물과 매우 흡사했다. 참고로 MRC는 'Mixed Raster Content' 약자며 Abbyy뿐만 아니라 다른 OCR 프로그램인 OmniPage Ultimate, Readiris에서도 사용되는 범용적인 압축 기술이다. 마지막으로 파일크기와 로딩시간을 비교했다.

그동안 나는 인터넷에서 300DPI와 600DPI가 큰 차이가 없다는 말을 곧이듣고 넥서스에서 [ABBYY FineReader 11 무손실 300DPI]로 저장한 PDF로 독서를 했는데, 이번 비교를 통해 장시간 볼 때는 [ABBYY FineReader 11 무손실 600DPI]가 눈에 부담이 좀 더 적다는 걸 알게 되었다. 언뜻 봐도 미세하게 600DPI 쪽이 가독성이 좋다.

[Acrobat XL 무손실 PDF]는 [ABBYY FineReader 11 무손실 300DPI]와 비교했을 때 파일크기에 비해 가독성이 뛰어났다. 그러나 로딩 속도가 두 번째로 더딘 것이 흠이다.

[Acrobat XL ClearScan]은 약간 부자유스러운 글자의 획때문에 보는 사람에 따라서는 가독성에 약간은 문제가 있을 수 있지만 여섯 개의 예제 파일 중에서 가장 빠른 로딩 속도를 보여주었다.

[ABBYY FineReader 11 MRC]은 예제 파일 중에서 파일크기는 제일 작음에도 그런대로 괜찮은 가독성을 보여주었다.

이제 마지막으로 [ABBYY FineReader 12 MRC+정밀스캔]을 살펴보면, 가독성은 둘째 치고 로딩 속도가 정말 문제다. 한 페이지를 로딩하는데 무려 10초가 넘게 걸렸다(속도 측정은 수동으로 스톱워치 어플로 측정했고 세 번씩 측정해서 가장 빠른 값을 사용했다). 넥서스 7(2013)의 성능이 평균은 간다고 봤을 때(이 글을 작성한 2014년 기준으로는), 이 느려터진 로딩 속도는 태블릿 등에서 사용할 때 상당한 걸림돌이 될 수 있다.

PDF 저장 설정에 따른 가독성 차이는 태블릿(또는 스마트폰)의 액정 크기가 클수록, 해상도가 높을수록 더욱 분명해지는 것 같다. 예전에 야누스 스마트폰에서 ABBYY FineReader 11에서 MRC로 저장한 PDF를 볼 때 넥서스 7에서와 만큼 가독성의 차이를 느끼지 못했다.

이 리뷰는 2014년 7월 11일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

2014. 7. 3.

종이책을 스캔해서 전자책(PDF) 만들기 ~ 5. ABBYY FineReader 11을 이용한 OCR 및 PDF 만들기

지난 번 「종이책을 스캔해서 전자책(PDF) 만들기 ~ 4. OCR과 가독성을 위한 포토샵 보정 작업」에서 생성한 출력물을 가지고 OCR 및 PDF를 만드느 시간이다. OCR(문서인식) 프로그램은 Adobe Acrobat XL, OmniPage 등을 포함하여 여러 가지가 있지만, 이것저것 한 번씩 사용해 본 결과 가장 우수한 것은 ABBYY FineReader 11이었다(이 글을 옮기는 2017년 11월 12일 현재에는 ABBYY FineReader 14 버전을 사용 중). 무엇보다 한글 인식률이 좋지만, 인식 후 사용자가 프로그램이 인식한 내용을 자유롭고 편리하게 수정할 수 있으며 인식 결과물을 다양한 문서 포맷(docx, doc, rtf, odt, pdf, htm, txt, xlsx, xls, pptx, csv, fb2, epub, djvu 출력 지원)으로 출력할 수 있다.

아래 스샷은 ABBYY FineReader 11의 메인 화면

앞에서 최종적으로 포토샵 보정까지 끝난 파일들을 불러오기 전에 일단 메뉴의 [도구] - [설정]을 잠깐 살펴보자.

[설정]의 첫 번째 탭은 [문서] 설정이다.

인식에 사용할 언어를 편집할 수 있으며 한글판으로 설치되었다면 기본적으로 [한국어 및 영어]가 선택되어 있다. 또한, 이 [한국어]는 한자도 인식한다. 스캔한 문서에 한글, 한자 및 영어 외에 다른 언어가 포함되어 있다면 [언어 편집]을 통해 추가해줘야 정확한 인식이 가능하다.

[설정]의 두 번째 탭은 [스캔/열기] 설정이다.

[획득한 페이지 이미지 자동 인식]은 이미지 파일을 불러올 때 [이미지 전처리] 설정에 선택된 작업들을 한 후 이미지에 포함된 그림, 글자, 표 등을 분석하고 인식작업까지 한다.

[획득한 페이지 이미지 자동 분석]은 이미지 파일을 불러올 때 [이미지 전처리] 설정에 선택된 작업들을 한 후 이미지에 포함된 그림, 글자, 표 등을 분석하지만, 인식작업은 하지 않는다.

[획득한 페이지 이미지 자동 인식 및 분석 안 함]은 이미지 파일을 불러올 때 [이미지 전처리] 설정에 선택된 작업들만 하고 분석 및 인식은 하지 않는다.


[이미지 전처리] 설정은 ABBYY FineReader에서 바로 스캔해 문서로 인식할 때 유용한 설정이지만, Scan Tailor와 포토샵 보정을 마친 이미지에는 굳이 필요가 없는 설정 이기도 하다.

[이미지 전처리 사용]은 노이즈 제거, 기울어짐 보정, 텍스트 라인 바르게 및 부등변 사각형태 일그러짐 보정과 같은 작업을 자동으로 한다.

[페이지 방향 검색]은 Scan Tailor의 [Fix Orientation]처럼 페이지의 올바른 방향을 자동으로 잡아준다.

[맞붙은 페이지 분할]은 Scan Tailor의 [Split Pages]처럼 페이지를 자동으로 분할한다.


[설정]의 세 번째 탭은 [인식] 설정이다.

[인식 모드]는 [정밀 인식]을 사용해야 인식률이 높다.

[훈련]에서 패턴 설정은 한글은 지원하지 않기 때문에 사용할 일은 없다.

이제 메인 화면의 [이미지/PDF 열기]로 포토샵 보정을 마친 이미지 파일들을 불러온다. Ctrl+A를 누르면 모든 파일을 쉽게 선택할 수 있다.

ABBYY FineReader가 이미지를 불러들이면서 분석 및 인식 작업까지 진행하게 된다.

ABBYY FineReader는 다중 프로세서를 지원하기 때문에 CPU가 많을수록 인식 시간은 단축된다. 필자의 AMD 트리니티 듀얼 코어 노트북으로 400페이지 정도를 인식하는 데 걸리는 시간은 대략 30분 조금 못 미친다. 또한, 인식에 사용할 언어를 많이 추가할수록 시간이 많이 걸리기도 한다.

인식이 완료되면 일단 메뉴의 [파일] - [FineReader 문서 저장]을 통해 저장해둔다. 이렇게 한 번 저장이 되면 사용자가 수정할 때마다 자동으로 저장되니 따로 나중에 저장할 필요는 없다. 일반 하드디스크라면 조금 시간이 걸리는 작업이다.

인식된 페이지들을 살펴보면 빨간색은 그림 영역으로 , 녹색은 텍스트 영역으로, 파란색은 표 영역으로 인식 된 것이다. 표나 글자로 인식된 부분과는 달리 그림으로 인식된 부분은 그냥 일반 이미지 파일로 PDF에 저장된다. 이러한 부분은 OCR의 장점인 텍스트 선택이 안 된다. 영역 설정은 사용자 임의 선택이 가능하지만, 대부분 ABBYY FineReader가 분석 및 인식 작업을 통해 알아서 잘 잡아준다.

그냥 이 상태에서 [저장]을 통해 PDF 문서로 만들어도 되지만, 나는 Scan Tailor에서 했던 것처럼 키보드의 [Page Down]을 이용해 빠르게 흩어내려 가면서 아래 사진처럼 미흡한 부분을 수정한다.

아래 사진은 글자 영역을 그림(빨간색) 영역으로 잘못 인식한 경우이다. 이럴 때에는 드래그 앤 드롭으로 글자 부분을 넉넉하게 선택한 다음 Ctrl+2를 눌러 영역을 텍스트로 지정하고(Ctrl+3은 그림, Ctrl+4는 표) Ctrl+Shift+B를 눌러 다시 인식해준다.

메인 화면의 우측에 보이는 글자들은 ABBYY FineReader가 이미지를 문자로 인식한 내용이다. 한글 인식률은 어림짐작 92% 이상으로 매우 높은 편이지만(600DPI 스캔 후 포토샵으로 가독성 보정한 이미지), 띄어 씌기나 오타 등의 인식 오류가 아예 없는 것은 아니다. 예로 들면 '사실'이라는 단어를 '시실'로 잘못 인식하는 경우가 많았다. 이럴 때엔 Ctrl+H로 [바꾸기] 창을 불러온 다음 '시실'을 '사실'로 전부 바꿔주면 된다. 또는, ABBYY FineReader의 [검증] 기능을 사용할 수 있다.

이러한 방법으로 잘못된 글자와 띄어쓰기 오류들을 일일이 다 수정할 수 있지만, 시간이 오래 걸리니 취향과 필요에 따라 적절하게 작업을 하면 된다. 사용자의 손이 많이 간 PDF는 오디오북으로 활용하면서 들을 때 더 정확한 듣기가 가능하나, 한글 듣기 능력에 특별한 문제가 없는 사람이라면 수정 없이 기본 상태로 저장된 PDF라도 책을 이해할 수 있을 만큼의 음성 듣기는 가능할 정도로 ABBYY FineReader의 인식률은 훌륭하다. 만약 원본과 토씨, 띄어쓰기 하나 틀리지 않게 완벽하게 수정한다면 TXT, DOC 등으로 저장해(인쇄하기 전 원고나 다름없는) 인터넷 서점에서 파는 eBook을 능가하는 고품질, 고활용의 전자책도 가능하다.

제 최종적인 PDF 출력이 남았다

주 도구 모음에 있는 [PDF 저장]을 클릭한 다음 [설정]으로 들어간다. ([저장 모드]에 대한 설명은 「ABBYY FineReader PDF 저장 옵션 중 [저장 모드]에 대하여」를, [이미지 설정]의 [품질]에 대해서는 「ABBYY FineReader PDF 저장 옵션 중 [이미지 설정 ('무손실'과 '손실')]에 대하여」를 참고)

일단 [Mixed Raster Content 사용]을 체크해제하고 [이미지 설정]에서 [사용자 지정]으로 들어간다.

원본 보존용(원본 이미지 보관을 위해 꼭 이 방법이 아니라 Scan Tailor 작업만 완료한 이미지나 포토샵 보정을 마친 이미지만 따로 보관해도 된다)으로 만들 PDF를 위해 [해상도]는 [원본]을 선택하고 [색상 조정]이나 [품질] 역시 아래 사진처럼 설정한다. 작업이 어느 정도 익숙해지면 여기 설정들을 조절해서 적당한 크기의 PDF 파일을 만들 수 있다. 그러나 [품질]에서 이미지 압축을 사용하면 태블릿 등에서 PDF를 불러와 페이지를 넘길 때 압축을 하지 않았을 때보다 조금 딜레이가 있다.

설정을 완료하면 [저장]을 통해 PDF 파일을 만든다.

같은 방법으로 이번에는 300DPI PDF를 만든다. 파일 이름은 적당히 정해주면 된다. 필자는 '책이름(300).pdf 이런 식으로 이름을 만든다. 보통 300DPI PDF는 원본 600DPI의 절반 정도 크기가 된다.

그리고 최종적으로 '저용량' PDF 문서를 만들 차례다. 필요 없으면 안 만들어도 상관없다. 필자는 앞의 300DPI와 600DPI PDF 문서들을 부족한 하드 용량에 다 보관할 수가 없어 따로 '저용량' PDF를 만들어 빠르게 본문을 흩어볼 일이 있을 때 사용한다. [사용자 지정]에서 [해상도] 등은 위의 원본 보존용처럼 설정한 다음 [저장] 설정에서 아래 사진처럼 [Mixed Raster Content 사용]을 체크한다. 아마도 이 설정은 인식된 글자들을 아마도 벡터 이미지로 바꿔 용량을 줄이는 고압축 방법인 것 같다.

이 글을 작성하면서 만든 416페이지 PDF 책의 용량을 보면 아래 그림과 같다.

원본 보존용으로 600DPI 무압축 설정으로 저장한 PDF 파일은 405M, 300DPI PDF 파일은 180M, 그리고 [Mixed Raster Content 사용]을 이용한 PDF 파일을 14.9M, Acrobat [ClearScan]으로 만든 PDF 파일은 66.3M이다. 그리고 포토샵 보정을 마친 416개 이미지 파일의 총용량은 455M이다.

획기적으로 PDF 용량을 줄이는 방법으로 Adobe Acrobat의 [ClearScan] OCR 인식이 있으나 한글 및 한자 인식률이 ABBYY FineReader에 비해 떨어지고 오랫동안 사용한 ABBYY FineReader에 익숙해서 ABBYY FineReader를 사용한다. 그러나 PDF 편집은 ABBYY FineReader에서 할 수 없기 때문에 Acrobat 등을 사용하면 된다. OCR 작업은 취향에 따라 Acrobat을 사용해도 무방하나, Acrobat은 OCR 작업할 때 아직 다중 프로세서를 지원하지 않기 때문에 시간이 좀 더 걸린다.

이제 남은 것은 완성된 PDF 파일을 Acrobat 같은 PDF 편집 프로그램으로 보안설정이나 [책갈피] 등을 추가하여 완성도를 높이는 것이다. 즐겁고 편안한 독서를 위한 지루한 모든 과정은 끝났다. 만약을 위해 클라우드 등에 백업하는 것을 잊지 말고 이제 기꺼운 마음으로 전자책을 펼치자.

이 리뷰는 2014년 7월 3일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

종이책을 스캔해서 전자책(PDF) 만들기 ~ 4. OCR과 가독성을 위한 포토샵 보정 작업

OCR 인식률과 가독성을 위한 포토샵 보정 작업은 주로 UnSharp Mask 필터와 Level을 사용하여 글씨의 굵기와 선명도를 수정한다. 그러나 이때의 설정값들은 책의 제본 상태에 따라, 스캔 결과에 따라 조금씩 달라질 수 있기 때문에 여러 설정값이나 여러 방법들을 따로 Action으로 저장하여 사용하면 좋다. 또한, Action으로 저장해야 스캔한 문서 모두에 쉽게 적용할 수 있는 일괄작업이 가능하기도 하다. 내가 주로 사용하는 네 가지의 보정법을 담은 Action을 스택(stack)으로 공유하니, 참고해서 자신에게 맞는 보정 방법을 찾으면 될 것 같다. (보정법 이름과 글씨의 굵기는 크게 상관은 없다. 그냥 급하게 이름을 붙이다 보니 그렇게 된 것)

문서보정.atn 다운로드

아래 사진들은 '600DPI, 이미지조절:문서, 비침줄이기와 윤곽강조 및 디스크린:On, 먼지 및 스크래치 제거:낮음' 설정으로 스캔한 결과물을 내가 A공유한 네 가지 보정법 Action을 각각 적용한 결과물이다. 그러나 너무 글씨를 굵게 보정하면 오히려 OCR 인식률은 떨어진다. 특히 굵은 보정은 한자 인식률 저하에 큰 몫을 한다. OCR 인식률을 높이려면 선은 너무 두껍지 않아야 하며 가늘면서도 선명한 것이 좋다.

난 위 사진처럼 네 가지의 보정법을 각각 적용한 것을 스냅샷으로 저장한 다음 세밀하게 비교한 다음 어떤 보정법을 적용할지 최종적으로 결정한다.

어떤 보정법을 적용할지 결정했으면 Action으로 저장한 다음 포토샵 메뉴의 [File] - [Scripts] - [Image Processor] 기능으로 일괄적용한다.

[Select Forder]는 Scan Tailor의 결과물이 있는 Out 폴더를 지정하고 일괄적용할 Action을 지정한 다음 [Run]을 눌러 실제로 적용한다. 이 결과물은 자동으로 생성된 TIFF 폴더 밑에 저장된다.

책에 그림이나 사진 등이 포함된 경우는 따로 보정을 해줘야 한다. 왜냐하면, 글씨에 적용한 보정법을 그림이나 사진에 적용하면 형태를 알아보기 어려울 정도로 변형되기 때문이다. 이때는 일단 전체파일을 위의 방법으로 일괄적용한 다음 그림이나 사진이 포함된 포토샵 보정 전의 파일을 포토샵을 이용해서 글씨 부분은 위의 Action을 적용하고 그림이나 사진 부분은 적은 양의 UnSharp Mask나 상황에 따라 약간의 Level만 적용하여 보기 좋게 한 다음 포토샵의 일괄작업 결과물이 있는 TIFF 폴더에 저장한다. 표지 파일 역시 따로 적절하게 보정해서 TIFF 폴더에 저장한다.

이상으로 포토샵 보정은 대충 마무리 된 것 같다. 이제 남은 건 OCR 작업과 마지막 PDF 만들기이다. 다음은 「종이책을 스캔해서 전자책(PDF) 만들기 ~ 5. ABBYY FineReader 11을 이용한 OCR 작업 및 PDF 만들기」이다.

이 리뷰는 2014년 7월 3일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

종이책을 스캔해서 전자책(PDF) 만들기 ~ 3. Scan Tailor를 이용한 다듬기 작업 #2

7. 다듬기

종이책을 스캔해서 전자책(PDF) 만들기 ~ 2. Scan Tailor를 이용한 다듬기 작업 #1」 다음 작업은 좀 더 완벽한 결과물을 위해 사람의 손이 필요한 작업이다.

[Margins]까지의 작업의 일괄적용이 완료되면, 이제 맨 위 페이지부터 마지막 페이지까지 빠르게 흩어보며 미진한 부분을 수정해야 한다. 이때는 아래 사진처럼 [Select Content] 탭으로 이동해 작업한다.

위 사진처럼 빈 페이지이지만 약간의 노이즈가 있는 것을 Scan Tailor가 내용으로 인식하는 경우에는 삭제한다. 또한, 아래 사진처럼 Scan Tailor가 놓친 부분은 수동으로 내용을 선택해줘야 한다.

하지만, 제목이 없는 글로만 가득 찬 본문으로 들어가면 Scan Tailor가 매우 적절하게 처신하기 때문에 사용자는 별 할 일이 없다.

본문 부분은 키보드의 [Page Down]을 이용하여 빠르게 흩어보면서 아래의 경우처럼 페이지의 맨 아랫부분인 쪽수가 적혀 있는 부분이 간혹 내용 선택에서 빠진 때가 있으니 찾아내야 한다 . 그러나 이 작업은 오른쪽 화면의 미리보기 부분만을 봐도 감지할 수 있으니(아래 사진에서 보듯 정상적인 부분과 빠진 부분은 눈에 띄게 차이가 난다.) 조금 숙달이 되면 매우 빠르게 진행할 수 있는 작업이다.

주의해야 할 것이 또 있는데, 책 본문에 사진이나 그림, 표 같은 것이 있으면 Scan Tailor가 내용이나 기울기를 제대로 잡지 못하는 경우가 많으니 , 이런 경우는 꼭 사용자가 확인하고 넘어가야 한다.

8. 최종 결과물 출력

[Output] 탭에서는 최종 결과물 출력을 위한 마무리 작업을 한다. [Output Resolution(DPI]에서는 최종 결과물에 적용할 DPI를 설정한다. 난 주로 600DPI로 스캔하기 때문에 600DPI로 마무리한다.

[Mode]에서 색상은 [Color/Grayscale]를 선택하고 취향에 따라 [White margins]을 선택한다. [White margins]을 선택하면 아래 사진처럼 Scan Tailor가 선택한 내용을 제외한 부분을 하얀 공백으로 깔끔하게 채워준다.

이 모든 것이 완료되면 맨 위 페이지를 선택한 다음 [화살표]를 눌러 출력한다. 프로젝트 파일들이 있는 폴더 밑에 생성된 Out 폴더에 파일이 저장된다.

이제는 Out 폴더에 출력된 결과물을 가지고 정확한 OCR과 가독성을 높이기 위한 포토샵으로 보정하는 작업이 남았다.

★ 파일이름 변경

나는 포토샵 작업 전에 파일이름을 책의 실제 페이지 번호에 맞게 변경해주는 습관이 있다. 이런 식으로 PDF 문서를 완성하면 PDF 뷰어에 표시되는 페이지와 책의 실제 페이지가 일치하게 된다. 꼭 따라 할 필요는 없지만, 나중에 페이지를 수정하게 되는 일이 생기면 편리하다.

파일이름을 일괄변경할 때 사용하는 유틸은 DarkNamer이며, 구글에서 검색하면 쉽게 구할 수 있다. 일괄변경하기 전에 표지에 쓸 파일 이름 앞에 '1'을 붙여 탐색기의 이름순 정렬에서 맨 앞으로 오게 하고 이 표지파일을 1페이지로 간주하여 전체 페이지 수를 맞춘다. 보통 책의 본문이 시작되면서 처음으로 페이지 아래 쪽수가 표시되는데, 만약 처음으로 쪽수가 시작되는 파일이 표지파일을 시작으로 5번째 파일인데 페이지에 표시된 쪽수도 5이면 딱 떨어지니 변경할 것은 없다. 그러나 쪽수가 모자라면 그 앞에 빈 페이지를 추가하여 채워주거나 쪽수가 남으면 앞에서 불필요한 페이지를 삭제하거나 파일이름을 변경하여 맨 뒤로 보내주면 된다.

일괄변경할 파일을 모두 선택하여 DarkNamer에 끌어다 놓은 다음 [이름지우기]를 눌러 기존의 파일이름을 모두 지운다.

그다음 [앞이름붙이기]로 책 제목과 함께 취향에 따라 ' - ' 등을 제목 뒤에 추가하면 나중에 페이지 숫자가 따라오면 제목과 번호를 구분하기 좋다.

[번호붙이기]로 파일이름 뒤에 숫자를 붙여 책의 실제 페이지와 맞춘다.

마지막으로 [변경적용]을 눌러 지금까지 설정한 것을 실제파일에 적용한다. 이제 OCR 작업하기 전에 이미지 보정을 위한 포토샵 작업이 남았다.

종이책을 스캔해서 전자책(PDF) 만들기 - 4. OCR과 가독성을 위한 포토샵 보정 작업

이 리뷰는 2014년 7월 3일 네이버 블로그에 올린 것을
특별한 수정 없이 그대로 옮긴 글입니다
Share:

Category

팔로어

Recent Comments

Blog Archive