2023/02/27

,

EPUB 전자책 중복 자료 정리

EPUB 전자책 중복 자료 정리

EPUB e-book redundant data cleaning
<강력한 중복 파일 정리 프로그램 AllDup도 한글 앞에선 속수무책>

쓰나미처럼 덮친 자료의 홍수 속에서 중복 걸러내기

얼마 전에 죽을 때까지 밥도 안 먹고 잠도 안 자고 읽어도 다 못 읽을 어마어마한 양의 도서가 쓰나미처럼 내 PC로 몰려들었는데, 가지고 있던 자료와 중복되는 것이 꽤 있었으니 어떻게 해야 손쉬운 방법으로 완벽하게 중복 자료를 정리할 수 있을까 하는 고민에 빠져드는 것은 인지상정.

가끔 사용하던 중폭 파일 정리기인 AllDup이 있지만, 위의 스크린샷에서 볼 수 있듯 한글로 된 파일 정리엔 젬병이다(아니면 내가 설정을 잘못했던가). 보통 중복 파일 정리 프로그램은 파일 이름은 달라도 해시값이나 크기가 같은 파일들을 찾아내는 데는 숨겨놓은 뼈다귀를 찾는 개처럼 날래지만 파일 이름만으로 비슷한 파일들을 찾아내는 데는 시원치 않다.

실시간 파일/폴더 프로그램인 Everything으로 면벽하듯 중복 파일들을 하나하나 골라내다가 문득 다음과 같은 한 가지 묘안이 떠올랐다.

기존 자료와 새 자료를 목록화한 다음 이것들을 몽땅 엑셀 같은 스프레드시트에 넣고 가나다순으로 정렬하면 어떨까?

참고로 오늘 중복 정리 작업의 주인공들은 전자책이며, 기존 자료는 ‘[저자] 제목(예: [옌롄커] 인민을 위해 복무하라.epub’, 새 자료는 ‘제목(예: 인민을 위해 복무하라.epub)'으로 파일명이 명명되어 있다.

준비물

Directory List Print
Batch Text Replacer
Everything
스프레드시트(엑셀, 한셀 등등)

EPUB 중복 자료 정리하기

EPUB e-book redundant data cleaning

1. 가장 먼저 해야 할 일은 Directory List Print 프로그램으로 기존 자료와 새 자료를 목록으로 출력하는 것이다.

[Directory] 탭에서 중복 자료 검색할 폴더를 선택한 다음 [Selection] 탭에선 위 스크린샷처럼 [Show files], [Remove path subtitles], [Remove file types] 정도만 체크한 다음 텍스트 파일로 저장한다([Output] 탭까지 갈 필요 없이 [Selection] 탭에서 목록 복사 가능).

이때 목록 수와 파일 수가 일치하는지 반드시 확인하자!

EPUB e-book redundant data cleaning

2-1. 만약 기존 자료와 새 자료의 명명 규칙이 같다면, 바로 스프레드시트 작업으로 직행할 수 있겠지만, 아쉽게도 기존 자료와 새 자료의 명명 규칙은 사람 얼굴과 침팬지 얼굴만큼 다르다. 그렇다면 무엇을 기준 삼아야 할까?

기존 자료: [옌롄커] 인민을 위해 복무하라.epub
새 자료: 인민을 위해 복무하라.epub

위와 같을 때, 스프레드시트에서 가나다순으로 정렬해 위의 두 이름이 위층 아래층처럼 꼭 붙어 있게 목록화되게 하려면 기존 자료에서 앞부분, 즉 ’[작가]’ 부분을 제거하면 된다.

이 작업은 Batch Text Replacer로 수행할 수 있는데, 상황에 따라 적용할 수 있는 규칙이 천차만별이니 자세한 것은 구글이나 「강력한 텍스트 파일 일괄 처리 프로그램 | Batch Text Replacer 한국어 패치」를 참고하고, 오늘 같은 경우는,

① [줄 텍스트 편집] > [제거]
② [각 줄에서 제거] > [까지]
③ ]

이렇게 설정하면, 각 줄에서 ](대괄호 닫기)까지의 모든 문자가 제거된다(대괄호 닫기 포함).

EPUB e-book redundant data cleaning

2-2. ](대괄호 닫기)까지 제거되면, 앞의 공백이 남는데, 각 줄 앞에 있는 공백은,

① [줄 텍스트 편집] > [제거]
② [각 줄에서 제거] > [시작과 끝에서]
③ [공백]

으로 제거할 수 있다.

이 규칙들은 어디까지나 내 경우에만 적용될 수 있는 예시일뿐이고 상황에 따라 서로 다른 규칙들을 적용해야 할 것이므로 머리를 좀 굴려야 하는 수고가 필요할 수도 있다. 제목 외에 나머지 단어들은 텍스트 편집기의 [바꾸기] 기능으로 잔가지 치듯 제거하면 된다.

역시 최종 목록 수와 파일 수가 일치하는지 반드시 확인하자!

EPUB e-book redundant data cleaning

3. 이렇게 책 제목만 남은 두 목록(기존 자료 목록, 새 자료 목록)을 스프레드시트(오늘은 한셀을 사용)의 셀에 붙여넣기하고 데이터 정렬을 한 다음,

[서식] > [조건부 서식] > [셀 강조 규칙] > [중복 값] > [중복]

기능을 사용하면, 이름이 완전히 같은 목록은 강조 표시가 되어 중복 자료를 쉽게 확인할 수 있다. 또한, (띄어쓰기, 기호, 다른 접미사 등등) 이름이 약간 다른 중복 자료도 위아래 붙어있으므로 쉽게 분별할 수 있다.

EPUB e-book redundant data cleaning

4. 이제 스프레드시트 목록을 보면서 Everything으로 중복 파일들만 골라 제거해 주면 된다.

나 같은 경우 원본 자료들은 몽땅 바이두 넷디스크와 구글 드라이브에 보관되어 있어서 Everything 색인 폴더에 바이두 넷디스크와 구글 드라이브를 연결했는데, 방법은 「개인 클라우드 보관된 자료를 빠르게 검색 | Alist + Everything」 문서를 참고하자.

이런 식으로 PC, 클라우드, NAS 등에 산재한 중복 자료들을 좀 더 쉽게 정리할 수 있게 되었다.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요