🧠 한 줄로 요약하자면,
EpubTxtExtractor = EPUB을 AI가 이해하기 좋은 텍스트로 변환해 주는 스마트한 추출기
AI 번역을 위한 장별(h1, h2 기준) 텍스트 추출
책을 AI 번역할 때 EPUB 파일 그대로 사용하지 않고, 일단 텍스트 파일로 변환한 다음 번역한다. 보통은 전체 텍스트 통째를 그대로 사용하지만, 때에 따라선 챕터별로 추출한 다음 번역해야 할 때가 있고, AI는 전체 텍스트를 한 번에 번역하는 대신 챕터별 번역을 추천한다. 그런데 ‘EPUB -> 텍스트 추출’ 도구는 「무료 문서 변환 프로그램 | Neat Converter」 등을 포함해 지천으로 널렸다. 반면에 ‘EPUB -> 챕터별 텍스트 추출’ 도구는 그렇게 많지 않다. 구글링해 보니 Calibre에 해당 기능이 있다는데, Sigil 사용자로서 달랑 기능 하나 때문에 Calibre를 설치하자니 번거롭다. 그래서 이번에도 Gemini의 도움으로 직접 만들었다.
EpubTxtExtractor 앱은 「Gemini API 기반 EPUB/TXT/SRT/DOCX 만능 번역기」 같은 AI 기반 API 번역기 앱 사용을 고려해 만들었다.
📜 EpubTxtExtractor 앱 특징
- 챕터별 분리 저장 또는 책 한 권을 통째로 병합
- 불필요한 공백, 줄 바꿈, 들여쓰기 등을 자동으로 정리하는 강력한 텍스트 정제 기능
- EPUB 파일 속에 숨겨진 이미지 동시 추출
- 여러 권의 책을 변환 후 하나의 파일로 합치는 최종 병합 기능
- 마크다운 변환, 다국어 UI, 동시 작업 수 조절 등 전문가를 위한 옵션까지!
⬇ EpubTxtExtractor 앱 다운로드
💻 EpubTxtExtractor 사용법
- 프로그램을 실행
- 파일 추가(드래그앤드드롭 지원)
- 출력 경로 지정
- 원하는 옵션 설정
- [추출 시작] 버튼을 누르면 끝!
🗨 옵션 설명
- 저장 방식
-
출력 결과를 어떻게 저장할지 선택합니다.
- 챕터별 파일 : 각 챕터를 개별 파일(.txt/.html/.md)로 저장합니다. (AI 번역용으로 권장)
- 책별 단일 파일 : 책 전체를 하나의 파일로 병합해 저장합니다.
- 마크다운(.md) 변환 : HTML 구조를 간단한 Markdown으로 변환해 저장합니다.
- 인코딩
-
출력 파일의 문자 인코딩을 설정합니다. (예: UTF-8, EUC-KR, CP949)
- 챕터 제목 기준
-
챕터 제목을 어떤 기준으로 추출할지 선택합니다.
- 자동 : h1 → h2 → h3 순으로 제목 태그를 찾아 사용합니다.
- 목차(TOC) 사용 : EPUB 내부 목차(nav.xhtml / toc.ncx)의 항목을 제목으로 사용합니다.
- 직접 지정(h1/h2/h3) : 특정 제목 태그를 우선으로 지정할 수 있습니다.
- HTML 마크업 보존
-
추출 결과를 순수 텍스트 대신 간소화된 HTML 형태로 보존하려면 활성화합니다. 후처리 또는 HTML 기반 작업에 유용합니다.
- 텍스트 정제 옵션
-
텍스트 추출 후 자동으로 적용할 정제(후처리) 옵션들입니다.
- 불필요한 공백/줄바꿈 정리 : 연속된 공백이나 탭 등을 정리합니다.
- 연속 줄바꿈 하나로 축소 : 3줄 이상의 빈 줄을 최대 2줄(또는 1줄)로 축소합니다.
- 문단 첫 줄 들여쓰기 제거 : 각 문단의 선행 공백/탭을 제거합니다.
- HTML 엔티티 변환 : , < 등 HTML 엔티티를 실제 문자로 디코딩합니다.
- 추가 출력
-
EPUB에서 본문 외 추가 자산을 추출하는 옵션입니다.
- 이미지 추출 : EPUB 내부의 이미지 파일들을 별도 폴더(
images
)로 추출합니다.
- 이미지 추출 : EPUB 내부의 이미지 파일들을 별도 폴더(
- 후처리 옵션
-
추출 완료 후 자동으로 수행할 작업들입니다.
- 완료 후 모든 책 병합 : 변환된 여러 파일을 하나의 파일로 병합합니다(병합 시 구분자 삽입).
- 로그 파일로 저장 : 작업 로그를 지정된 출력 폴더에 텍스트 파일 형태로 저장합니다.
- 완료 후 출력 폴더 열기 : 변환 완료 시 시스템 파일 탐색기로 결과 폴더를 엽니다.
- 동시 작업 수
-
한 번에 병렬로 처리할 EPUB 작업의 수를 설정합니다. 시스템 코어 수에 따라 성능을 조절할 수 있습니다.
- 다국어 UI 지원
-
프로그램 인터페이스 언어를 변경할 수 있습니다(예: 한국어, 영어). 설정에서 언어를 선택하면 UI 텍스트가 적용됩니다.
- 메타데이터 패널
-
파일 목록에서 EPUB 파일을 선택하면 오른쪽 패널에 간단한 메타데이터(제목, 저자, 언어, 챕터 수)를 표시합니다. 변환 전 책 정보를 빠르게 확인할 때 유용합니다.
- 파일 이름 충돌 처리
-
동일한 이름의 출력 파일이 존재할 경우 자동으로
_1
,_2
형태의 접미사를 붙여 고유한 파일명을 생성합니다. - 마크다운 변환(추가 설명)
-
마크다운 모드에서는 간단한 HTML 요소(h1~h6, p, ul, ol, blockquote 등)를 마크다운 문법으로 변환해 저장합니다. 이후 GitHub/GitLab 또는 정적 사이트 생성기의 입력으로 사용하기 편리합니다.
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요