2015/12/15

포토샵 보정과 OCR 인식률

포토샵 보정과 OCR 인식률

이번 테스트는 포토샵 보정에 따른 OCR 인식률의 변화다. 참고로 이번 테스트에 사용한 포토샵 보정 액션 OCR.atn은 이 링크에서 다운로드 할 수 있다.

무보정 원본 인식 결과

13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.

14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2ᄋ14-5ᅳ20)

15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”,http://world.huanqiu.com/exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性,因此加强了對數學與工程學的投資”,http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

Color Burn 혼합 후 인식 결과

Color Burn 혼합 후 인식 결과 보기

13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
14 Apple’s Jobs to Obama: “Jobs aren't coming back” to U.S., http!//www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2014-5-20)
15 “奥巴馬在中國製造下推廣美國製造 大風吹現眞相”, http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性, 因此加强了對數學與工程學的投資”,http://energy.gov/articles/ pi.esident-s-coundl—jobs—and—competitiveness-announces-industry-leaders— commiment-double. (검색일: 2014-5-7)

Multiply 혼합 후 인식 결과

Multiply 혼합 후 인식 결과 보기

13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2이4-5-20)
15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”, http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性, 因此加强了對數學與工程學的投資”, http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

Level, Unsharp 보정 후 인식 결과

Level, Unsharp 보정 후 인식 결과 보기

13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 치-지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 히씨 못하였거나 취업을 포기함으로써 발생힘-. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포힘-하지 않았음.
14 Apple's Jobs to Obama: “Jobs aren't coming back" to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2014-5—20)
15 “奥巴馬在中國製造下推廣美國製造 大風吹現眞相”,http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到 /去工 業化的嚴합性,因此加强了尉數은工程^的投資",http://energy.gov/articles/ presiclent-s-council-jobs-ancl-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5-7)

High Pass 보정 후 인식 결과

High Pass 보정 후 인식 결과 보기

13 노동참여율(Labor Force Participation Rate)은 노동연령층에서 경제활동인구(취업자와 실업자 모두를 포함)가 차지하는 비율로,2013년부터 2014년까지 미국의 실업률은 지속 적으로 하락하는 추세를 보였으나 노동참여율이 현저히 제고되지는 않음. 이는 일부 노동 연령인구가 장기적으로 취업을 하지 못하였거나 취업을 포기함으로써 발생함. 미국 연방통 계국의 통계 방식에 의해 실업인구를 포함하지 않았음.
14 Apple’s Jobs to Obama: “Jobs aren’t coming back” to U.S., http://www. heraldtribune.com/article/20120123/ARTICLE/301239999. (검색일: 2ᄋ14-5ᅳ20)
15 “奥巴馬在中國製造下推廣美國製造 ᄎ風吹現眞相”,http://world.huanqiu.com/ exclusive/2013-04/3785969.html. (검색일: 2014-6-3) “美國政府意識到了去工 業化的嚴重性,因此加强了對數學與工程學的投資”,http://energy.gov/articles/ president-s-council-jobs-and-competitiveness-announces-industry-leaders-commiment-double. (검색일: 2014-5ᅳ7)

간단한 이번 테스트 결과와 그동안의 경험으로 봐서는 OCR 프로그램의 눈과 사람의 눈은 달랐다. 즉, 사람의 눈에 명확하게 보이는 진하고 선이 굵은 가독성 높은 보정이 오히려 OCR 인식률을 낮추는 결과를 가져오기 때문이다.

한자나 한글 같은 경우 레벨과 언샵 보정 후에는 낮은 인식률을 보여주는 경우가 종종 있다. 지나친 보정은 글자 획을 굵게 만들어 획과 획 사이의 간격을 너무 좁히거나 겹치게 하기 때문에 자잘한 오타를 유발한다. 거꾸로 원본 상태에서는 제대로 인식하지 못한 글자를 레벨/언샵 보정 후 제대로 인식할 때도 있다. 그래서 전체 이미지에 일괄적용하기 전에 반드시 테스트가 필요하며 스캔한 책의 상태나 재질, 글자 크기에 값도 달라질 수밖에 없다. 레벨과 언샵 보정이 비록 OCR 인식률을 낮추는 경우가 있지만, 가독성은 좋아지고 스캔된 먼지나 이미지의 노이즈 같은 군더더기를 없애면서 파일 크기를 대폭 줄여준다는 장점은 있다(아래 그래프 참고).

인식률에 큰 영향을 주지 않는 보정은 블렌딩 모드와 High Pass 보정을 기초로 작업하는 것이며, 오로지 좋은 OCR 결과만을 원한다면 무보정, 또는 Color Burn 혼합(50~100%)을 약간 사용하는 것이다. 그러나 이 설정은 스캐너의 스캔 품질에 따라 달라질 여지가 많아서 OCR 작업 전에 한 페이지 정도 테스트하면서 최적의 보정 값을 얻은 다음 그 값을 전체 이미지에 일괄적용한 다음 OCR 진행하는 것을 추천한다. 참고로 이 테스트에는 ABBYY Finereader 11 버전이 사용되었다.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요