ABBYY FineReader PDF 저장 옵션 | [저장 모드]에 대하여
ABBYY FineReader에서 인식한 문서를 PDF로 저장할 때 사용자는 [저장 모드]를 선택할 수 있는데, 이 [저장 모드]에 따라 실제로 PDF의 파일 크기와 뷰어를 통해 볼 때 가독성에서 아주 큰 차이가 난다.
1. 보통 사용하는 모드는 기본 값으로 설정된 [페이지 이미지 밑에 텍스트]
[페이지 이미지 밑에 텍스트](Text under the page image) [저장 모드]는 ABBYY FineReader 메인 인터페이스 화면의 왼쪽에 자리한 이미지 레이어(포토샵에서 활용되는 'layer' 개념과 비슷하다)가 PDF 문서 가장 위로 오고, 그 밑에 OCR로 인식된 텍스트 레이어가 위치하게 된다. 그래서 PDF 뷰어를 통해 보게 되는 화면은 이미지 형태의 글자이지만, 드래그 기능으로 텍스트를 선택할 수 있는 것은 이미지 밑에 있는 텍스트 레이어가 숨어 있기 때문에 가능하다. 하지만, 위의 스샷처럼 OCR 미인식된 빨간 부분은 PDF 뷰어에서 이미지 형태로 보이기는 하지만 드래그로 텍스트 선택은 할 수 없다.
2. [페이지 이미지 위에 텍스트(Text over page image)]
ABBYY FineReader가 인식한 텍스트 레이어를 최상위층에 올림으로써 (이미지 레이어는 그 아래) txt, doc 등의 문서를 PDF로 저장한 것과 같은 가독성을 보여주는 [저장 모드]다. 그러나 OCR 작업 결과물에서 띄어쓰기 오류나 오탈자를 수정하지 않았다면 그것 역시 그대로 보여주는 단점이 있다. 미인식된(빨간 네모) 부분은 포토샵 레이어 마스크처럼 작동하여 이미지 레이어에 있는 이미지로 대체된다. (스샷만으로는 잘 확인할 수 없지만) 원본으로 저장했을 때는 미인식된 부분도 txt만큼이나 훌륭한 가독성을 보여주지만, MRC로 압축해서 저장했을 때는 미인식된 부분이 눈에 띄게 티가 난다.
3. [페이지 이미지만(Page image only)]
ABBYY FineReader 메인 인터페이스 화면 왼쪽에 보이는 이미지 레이어만 PDF로 저장된다(이 설정을 선호한다면 굳이 시간을 들여 OCR을 할 필요가 없고, 마찬가지로 ABBYY FineReader를 사용할 필요도 없다). OCR된 텍스트는 빠지기 때문에 당연히 PDF 뷰어에서 드래그로 텍스트를 선택할 수 없고, 본문 검색도 할 수 없다. 한마디로 OCR의 장점을 모두 버리는 [저장 모드]다(2017년 11월 14일 추가: 그래서 그런지 Abbyy Finereader 14에서는 이 옵션이 아예 빠졌다. 본문 마지막 스샷 확인).
4. [텍스트와 그림만(Text and pictures only)]
ABBYY FineReader 메인 인터페이스 화면 우측의 OCR된 텍스트 레이어와 왼쪽의 이미지 레이어 부분에서 [영역 유형]이 그림 영역(문서 본문에 삽입된 도표, 삽화, 그래프 등으로 반투명한 빨간색으로 지정된 영역)으로 설정된 부분만 PDF로 저장된다. 그래서 위 네 가지 설정 중 파일 크기가 가장 작다. OCR된 텍스트 레이어가 PDF 뷰어에서 보이기 때문에 가독성은 [페이지 이미지 위에 텍스트]와 같으나 대신 이미지 레이어 부분이 빠졌기 때문에 위 스샷의 빨간 사각형으로 표시한 부분처럼 인식이 안 된 부분은 PDF 뷰어에서 아예 볼 수가 없게 된다.
아래 그림은 스캔한 이미지 중 한 페이지 분량을 위의 네 가지 설정으로 각각 저장한 다음 PDF의 파일 크기를 비교한 그래프이다.
[텍스트 및 그림만]으로 저장한 PDF의 파일 크기가 가장 작고, 그다음으로는 [페이지 이미지 위에 텍스트]이다. [페이지 이미지 위에 텍스트] 설정의 파일 크기가 이미지가 포함됨에도 뒤에 따르는 두 파일에 비해 상당히 작은 것은 OCR 인식된 부분은 텍스트 레이어로 저장하면서 동시에 인식된 텍스트 이미지는 버리기 때문인 것 같다. 또한, 인식하지 못한 부분은 이미지로 대체하기 때문에 [텍스트 및 그림만]보다는 용량이 크다.
마지막으로, 안드로이드 PDF 어플 중에 ezPDF Reader는 아래 스샷처럼 OCR된 PDF 문서에서 텍스트 레이어만 볼 수 있는 기능을 제공하고 있다. 바로 [텍스트 리플로우(Text Reflow)]인데, 이 기능으로 문서를 보면 일반 문서(txt, doc) 등을 보는 것과 다를 바가 없는 매우 뛰어난 가독성을 제공한다. 그러나 (OCR 후 텍스트 오류를 수정하지 않았다면) 띄어쓰기 오류, 오탈자, 미인식된 글자 생략 등의 단점도 있다.
비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요