2014/07/03

종이책을 스캔해서 전자책(PDF) 만들기 | 4. OCR과 가독성을 위한 포토샵 보정 작업

7/03/2014 댓글 없음

종이책을 스캔해서 전자책(PDF) 만들기 | 4. OCR과 가독성을 위한 포토샵 보정 작업

OCR 인식률과 가독성을 위한 포토샵 보정 작업은 주로 UnSharp Mask 필터와 Level을 사용하여 글씨의 굵기와 선명도를 수정한다. 그러나 이때의 설정값들은 책의 제본 상태에 따라, 스캔 결과에 따라 조금씩 달라질 수 있기 때문에 여러 설정값이나 여러 방법들을 따로 Action으로 저장하여 사용하면 좋다. 또한, Action으로 저장해야 스캔한 문서 모두에 쉽게 적용할 수 있는 일괄작업이 가능하기도 하다. 내가 주로 사용하는 네 가지의 보정법을 담은 Action을 스택(stack)으로 공유하니, 참고해서 자신에게 맞는 보정 방법을 찾으면 될 것 같다. (보정법 이름과 글씨의 굵기는 크게 상관은 없다. 그냥 급하게 이름을 붙이다 보니 그렇게 된 것)

문서보정.atn 다운로드

아래 사진들은 '600DPI, 이미지조절:문서, 비침줄이기와 윤곽강조 및 디스크린:On, 먼지 및 스크래치 제거:낮음' 설정으로 스캔한 결과물을 내가 A공유한 네 가지 보정법 Action을 각각 적용한 결과물이다. 그러나 너무 글씨를 굵게 보정하면 오히려 OCR 인식률은 떨어진다. 특히 굵은 보정은 한자 인식률 저하에 큰 몫을 한다. OCR 인식률을 높이려면 선은 너무 두껍지 않아야 하며 가늘면서도 선명한 것이 좋다.

난 위 사진처럼 네 가지의 보정법을 각각 적용한 것을 스냅샷으로 저장한 다음 세밀하게 비교한 다음 어떤 보정법을 적용할지 최종적으로 결정한다.

어떤 보정법을 적용할지 결정했으면 Action으로 저장한 다음 포토샵 메뉴의 [File] - [Scripts] - [Image Processor] 기능으로 일괄적용한다.

[Select Forder]는 Scan Tailor의 결과물이 있는 Out 폴더를 지정하고 일괄적용할 Action을 지정한 다음 [Run]을 눌러 실제로 적용한다. 이 결과물은 자동으로 생성된 TIFF 폴더 밑에 저장된다.

책에 그림이나 사진 등이 포함된 경우는 따로 보정을 해줘야 한다. 왜냐하면, 글씨에 적용한 보정법을 그림이나 사진에 적용하면 형태를 알아보기 어려울 정도로 변형되기 때문이다. 이때는 일단 전체파일을 위의 방법으로 일괄적용한 다음 그림이나 사진이 포함된 포토샵 보정 전의 파일을 포토샵을 이용해서 글씨 부분은 위의 Action을 적용하고 그림이나 사진 부분은 적은 양의 UnSharp Mask나 상황에 따라 약간의 Level만 적용하여 보기 좋게 한 다음 포토샵의 일괄작업 결과물이 있는 TIFF 폴더에 저장한다. 표지 파일 역시 따로 적절하게 보정해서 TIFF 폴더에 저장한다.

이상으로 포토샵 보정은 대충 마무리 된 것 같다. 이제 남은 건 OCR 작업과 마지막 PDF 만들기이다. 다음은 「종이책을 스캔해서 전자책(PDF) 만들기 ~ 5. ABBYY FineReader 11을 이용한 OCR 작업 및 PDF 만들기」이다.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요

PikPak, 바이두 등 무료 클라우드 정보

2014/07/03

종이책을 스캔해서 전자책(PDF) 만들기 | 4. OCR과 가독성을 위한 포토샵 보정 작업

종이책을 스캔해서 전자책(PDF) 만들기 | 4. OCR과 가독성을 위한 포토샵 보정 작업

0 comments:

댓글 쓰기

About Author

Translate

팔로어

Pages

Categories

Top Posts

Recent Posts

블로그 검색

PikPak, 바이두 등 무료 클라우드 정보

2014/07/03

종이책을 스캔해서 전자책(PDF) 만들기 | 4. OCR과 가독성을 위한 포토샵 보정 작업

0 comments:

댓글 쓰기

About Author

About Me

Translate

팔로어

Pages

Categories

Top Posts

Recent Posts

블로그 검색