📂 기존 툴이 놓친 한글 중복 파일, '음절 단위 각개격파'로 찾아내다! 💥
AllDup 같은 흠 잡을 데 없는 중복 파일 검색 무료 프로그램 있음에도 불구하고 자작한 이유는 AllDup에서 제공하는 파일 이름 중복 검색 알고리즘이 한글 파일에선 힘을 못 쓰는 것 같기 때문이다. SmartMatch, FuzzyMatch, WordMatch 등 다양한 파일 이름 비교 알고리즘이 있지만, 위 동영상에서 볼 수 있듯 AllDup은 모든 알고리즘을 총동원했음에도,
- 죽은 자의 꿈 – 정보라.txt
- [정보라] 죽은 자의 꿈.txt
위 두 파일에서 유사점을 찾지 못했다(참고로 내가 사용법을 잘 몰라서 그랬을 수도 있다). 반면에 내가 만든, 그래서 아주 간단할 수밖에 없는 중복 파일 검색 프로그램은 위 두 파일 이름에서 유사점을 찾아냈다.
원리는 간단하다. 한글 파일 이름을 음절 단위로 각개격파 하여 음절 순서 상관없이 음절만 비교하는 것이다. 이렇게 비교하니 기존의 그 어떠한 중복 프로그램도 찾지 못했던, 그야말로 꼭꼭 숨어 있었던 중복 파일들을 찾는 데 성공했다. 다만, 아주 기본적인 기능만 갖추어져 있는지라 검색 속도, 메모리 사용량, 색인 등 최적화나 성능은 매우 열악하다. 그렇다고는 해도 4만 파일 조금 넘는 텍스트 파일 무더기를 검색하는 데 성공했고, 이때 메모리 사용량은 대략 4~5GB 정도 잡아먹는 것 같았다.
✨ 한글 파일 중복 검색기 특징 ✨
- 한글 중심의 유사도 분석:
- 파일명에서 한글 음절만을 추출 (선택적으로 숫자 포함 가능)하여 비교
- 다양한 비교 알고리즘 선택 가능:
- 순서 무관(Jaccard): 구성 음절이 같으면 순서만 달라도 100% 유사도 판단
- 순서 고려(SequenceMatcher): 음절 순서까지 고려하여 유사도 계산
- 편집 거리(Levenshtein): 오타나 약간의 글자 차이에도 강인한 유사성 판단
- 사용자 정의 유사도 임계값 설정 가능
- 효율적인 검색을 위한 고급 기능:
- N-gram 기반 색인: 대량 파일에서도 빠른 검색 가능
- 색인 캐시: 이전 검색 결과 재사용으로 색인 생성 시간 단축
- 다중 폴더 동시 검색 지원
- 제외 확장자 설정 가능 (.tmp, .bak 등)
- 사용자 친화적인 인터페이스 (GUI):
- 직관적인 그래픽 인터페이스 제공
- 깔끔한 디자인 구성
- 실시간 검색 진행 상황 확인 가능
- 일시 중지/재개 기능 지원
- 편리한 결과 관리:
- 중복 파일 목록을 유사도, 경로, 처리된 이름, 크기와 함께 표시
- 검색 결과 TXT/CSV 파일로 저장 가능
- 가볍고 유연한 프로그램:
- Python 기반 가벼운 실행
- 오픈 소스 형태로 확장 가능
- 매우 크고 매우 많은 파일 시스템에서는 시간이 꽤 걸릴 수 있음
⬇ 다운로드(소스 포함) ⬇
🎯 누구에게 유용할까? 🎯
- 📚 소설, 문서, 음악, 영상 등 많은 한글 파일을 보유한 사람
- 💾 정리되지 않은 다운로드 폴더나 자료 폴더 때문에 저장 공간이 부족한 사람
- 🔍 단순 파일명 비교로는 찾기 어려운 미묘하게 다른 한글 중복 파일을 찾아내고 싶은 사람
- ⚡ 복잡한 설정 없이 간편하게 중복 파일을 정리하고 싶은 사람
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요