2026/01/03

, , ,

자작 15탄, PDF/OCR 후처리 특화 텍스트 교정기

텍스트 후처리 끝판왕: 정규식 교정부터 AI 띄어쓰기 교정까지

위 사진 중 왼쪽은 OCR(Abbyy FineReader로 제작)로 만든 자작 PDF에서 추출한 텍스트, 하나는 출판사에서 전자책으로 배포하는 PDF 문서에서 추출한 텍스트다. 이렇게 OCR/PDF 문서에서 텍스트를 추출하거나 복사할 때 발생하는 깨진 문단과 줄 바꿈 문제는 텍스트 에디터의 '찾기 및 바꾸기' 기능을 활용하여 해결할 수 있다고 하는데, 그렇게 하면 띄어쓰기 문제가 발생한다. 이뿐만 아니라 제목이나 페이지 숫자 같은 군더더기 텍스트까지 문장/문단에 합쳐져 가독성이 떨어진다.

그래서 재주껏 만들어 본 텍스트 후처리 특화 교정기 앱이 TextRefiner Pro. 이 앱은 단순한 띄어쓰기 교정기가 아니라,

  • 줄 바꿈이 엉킨 문장
  • 제목과 본문이 뒤섞인 텍스트
  • 반복되는 머리말 • 꼬리말
  • OCR 과정에서 생긴 특수 문자
  • 사용자만 아는 고유 오타

까지 구조적으로 복원하는 데 초점을 맞추었다. 코딩의 ‘코’자도 모르는 내가, 전적으로 AI의 도움으로 만들었음에도 그럭저럭 작동하니, 내가 만들고도 신기할 따름이다. 하지만, 그러하기에 부족한 점도 많다는 것.

참고로 만들어 놓고 보니, 정규식(Regex) 교정, 특수/채움 문자 제거, 문단 재정렬(AI 띄어쓰기 적용 전에 모든 공백 제거됨) 등 소금형 워터마크 제거에도 활용이 될 수 있겠다. 보너스로 텍스트 교정 및 정리 후 파일 크기도 최적화.

TextRefiner Pro 특징

띄어쓰기 엉망인 텍스트도 이렇게 정리
<이처럼 띄어쓰기 엉망인 텍스트도 원클릭으로 깔끔하게 정리>
  • 📄 PDF/OCR 완벽 대응: 문장 중간에 강제로 삽입된 줄 바꿈(Line Break)을 문맥에 맞게 다시 이어줌.
  • 🧠 똑똑한 레이아웃 보존:
    • 제목 감지: 짧은 문장이나 챕터 제목은 합치지 않고 독립된 줄로 유지(특수 문자 포함, 글자 수 사용자 지정 가능).
    • 리스트/번호 보호: 1., -, • 등으로 시작하는 목록은 문단 병합에서 제외.
  • 🛠 강력한 사용자 정의 규칙:
    • 정규식 편집기: ‘죄와 벌 \d+’ 같은 패턴을 등록해 책 제목이나 페이지 번호를 한 번에 삭제.
    • 사용자 사전: 자주 틀리는 고유명사나 오타를 사전에 등록하여 일괄 수정.
  • 👀 눈으로 확인하는 교정: '시각적 피드백' 기능을 켜면, 어떤 부분이 삭제되고 수정될지 색깔로 미리 보여줌(텍스트양에 따라 처리 시간이 길어질 수 있음).
  • 🤖 AI 띄어쓰기 교정(Quickspacer): 구글의 텐서플로우(TensorFlow) 기반 딥러닝 모델인 Quickspacer 라이브러리를 내장, 띄어쓰기가 완전히 망가진 OCR 결과물도 자연스럽게 띄어쓰기를 복구.
  • 🚀 대용량 텍스트 최적화: 수백 페이지의 텍스트도 스레드(Thread) 처리를 통해 멈춤 없이 안정적으로 변환.

TextRefiner Pro 테스트 영상

⬇ 앱 다운로드(업데이트: 2026/01/04)

v3.4: 픽팍 다운 / 테라 다운


자매품, 문서 교정 대상 검색기 포함

    ⚡ 단축키 ⚡

  • 검색 (Find) : Ctrl + F - 검색창 열기 / 이미 열려있으면 입력창 포커스
  • 다음 찾기 : F3 - 다음 단어 찾기 (검색창 엔터와 동일)
  • 이전 찾기 : Shift + F3 - 이전 단어 찾기
  • 검색창 닫기 : Esc - 검색창이 열려있을 때 닫기
  • 교정 실행 : F5 - [🚀 텍스트 교정 실행] 버튼 클릭과 동일 (새로고침 느낌)
  • 저장 : Ctrl + S - 결과 파일 저장
  • 스크롤 (결과창) : Space - 한 페이지 아래로 스크롤 (크롬처럼)
  • 스크롤 (결과창) : Shift + Space - 한 페이지 위로 스크롤
  • 선택 영역 보호 : Ctrl+B
  • 모든 보호 해제 : Ctrl+Shift+B

🆕 v3.4 업데이트 내역 🆕

  • 선택 영역 보호(Block) 기능 추가

🆕 v3.3 업데이트 내역 🆕

  • 단축키 적용

🆕 v3.2 업데이트 내역 🆕

  • [제목 감지] 규칙에 정규식 적용
  • [교정 결과]의 마우스 우클릭 메뉴에 사용자 교정 추가
  • [교정 결과]에 검색 기능 추가

사용법(How to Use)

  • 파일 불러오기: .txt 파일을 프로그램 좌측 창으로 드래그 앤 드롭(또는 텍스트를 직접 붙여넣기).
  • 옵션 선택:
    • 기본 정렬: 줄바꿈 정렬, 특수문자 제거 등 기본 기능을 체크.
    • 문단 보존: 소설이나 논문이라면 '제목 감지', '문장 종결 시 줄바꿈 유지' 사용 추천.
    • 고급 교정: 페이지 번호 같은 반복되는 텍스트를 지우려면 [정규식 편집(상황에 맞는 정규식은 AI에게 문의)]을, 띄어쓰기가 엉망이라면 [AI 띄어쓰기]를 체크.
  • 미리보기(선택): '시각적 피드백'을 켜서 삭제되거나 수정될 부분을 색깔로 확인(텍스트양이 많을수록 하이라이트가 표시되기까지 시간이 꽤 걸림).
  • 실행 및 저장: [🚀 텍스트 교정 실행] 버튼을 누르면 우측에 결과가 출력됨. [📜 스크롤 동기화] 기능으로 원본과 결과를 비교. 마음에 들면 [저장] 버튼 클릭.

자매품, 문서 교정 대상 검색기

자매품으로 만든 Broken Paragraph Finder 앱은 TextRefiner Pro 앱을 사용해 정리/교정해야 할 대상 텍스트를 검색해 주는 도구다. 하위 폴더 검색을 지원하고, [손상 점수]로 깨진 문단의 정도를 알려준다.

참고로 EPUB에서 추출한 텍스트 등 온전한 텍스트는 리스트에 아예 표시되지 않는다.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요