2025/06/05

, ,

자작 6탄, 한글 파일명 특화된 중복 파일 검색기

📂 기존 툴이 놓친 한글 중복 파일, '음절 단위 각개격파'로 찾아내다! 💥

AllDup 같은 흠 잡을 데 없는 중복 파일 검색 무료 프로그램 있음에도 불구하고 자작한 이유는 AllDup에서 제공하는 파일 이름 중복 검색 알고리즘이 한글 파일에선 힘을 못 쓰는 것 같기 때문이다. SmartMatch, FuzzyMatch, WordMatch 등 다양한 파일 이름 비교 알고리즘이 있지만, 위 동영상에서 볼 수 있듯 AllDup은 모든 알고리즘을 총동원했음에도,

  • 죽은 자의 꿈 – 정보라.txt
  • [정보라] 죽은 자의 꿈.txt

위 두 파일에서 유사점을 찾지 못했다(참고로 내가 사용법을 잘 몰라서 그랬을 수도 있다). 반면에 내가 만든, 그래서 아주 간단할 수밖에 없는 중복 파일 검색 프로그램은 위 두 파일 이름에서 유사점을 찾아냈다.

원리는 간단하다. 한글 파일 이름을 음절 단위로 각개격파 하여 음절 순서 상관없이 음절만 비교하는 것이다. 이렇게 비교하니 기존의 그 어떠한 중복 프로그램도 찾지 못했던, 그야말로 꼭꼭 숨어 있었던 중복 파일들을 찾는 데 성공했다. 다만, 아주 기본적인 기능만 갖추어져 있는지라 검색 속도, 메모리 사용량, 색인 등 최적화나 성능은 매우 열악하다. 그렇다고는 해도 4만 파일 조금 넘는 텍스트 파일 무더기를 검색하는 데 성공했고, 이때 메모리 사용량은 대략 4~5GB 정도 잡아먹는 것 같았다.

✨ 한글 파일 중복 검색기 특징 ✨

Korean duplicate finder 인터페이스
  • 한글 중심의 유사도 분석:
    • 파일명에서 한글 음절만을 추출 (선택적으로 숫자 포함 가능)하여 비교
  • 다양한 비교 알고리즘 선택 가능:
    • 순서 무관(Jaccard): 구성 음절이 같으면 순서만 달라도 100% 유사도 판단
    • 순서 고려(SequenceMatcher): 음절 순서까지 고려하여 유사도 계산
    • 편집 거리(Levenshtein): 오타나 약간의 글자 차이에도 강인한 유사성 판단
  • 사용자 정의 유사도 임계값 설정 가능
  • 효율적인 검색을 위한 고급 기능:
    • N-gram 기반 색인: 대량 파일에서도 빠른 검색 가능
    • 색인 캐시: 이전 검색 결과 재사용으로 색인 생성 시간 단축
    • 다중 폴더 동시 검색 지원
    • 제외 확장자 설정 가능 (.tmp, .bak 등)
  • 사용자 친화적인 인터페이스 (GUI):
    • 직관적인 그래픽 인터페이스 제공
    • 깔끔한 디자인 구성
    • 실시간 검색 진행 상황 확인 가능
    • 일시 중지/재개 기능 지원
  • 편리한 결과 관리:
    • 중복 파일 목록을 유사도, 경로, 처리된 이름, 크기와 함께 표시
    • 검색 결과 TXT/CSV 파일로 저장 가능
  • 가볍고 유연한 프로그램:
    • Python 기반 가벼운 실행
    • 오픈 소스 형태로 확장 가능
  • 매우 크고 매우 많은 파일 시스템에서는 시간이 꽤 걸릴 수 있음

⬇ 다운로드(소스 포함) ⬇

Korean duplicate finder v1.5: 테라 링크 / 픽팍 링크

✨ 능력자분~! 새 기능 추가하시면 저에게도 꼭 공유해주세요~! 💌


자작 AI 코딩 시리즈

🎯 누구에게 유용할까? 🎯

  • 📚 소설, 문서, 음악, 영상 등 많은 한글 파일을 보유한 사람
  • 💾 정리되지 않은 다운로드 폴더나 자료 폴더 때문에 저장 공간이 부족한 사람
  • 🔍 단순 파일명 비교로는 찾기 어려운 미묘하게 다른 한글 중복 파일을 찾아내고 싶은 사람
  • ⚡ 복잡한 설정 없이 간편하게 중복 파일을 정리하고 싶은 사람

Related Posts:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요