2024/02/09

,

음성 복제 도구 | clone-voice

음성 복제 도구 | clone-voice

CV Voice Clone Tool

사람의 음성을 소스로 사용하여 텍스트를 소스 음성으로 합성하거나 다른 음성을 소스 음성으로 변환할 수 있는 음성 복제 도구.

AI 보컬 REMIX 도구 | REPLAY」은 (직접 제작하거나, 누군가 만들어서 공유한) 음성 변환(RVC) 모델을 사용해 음성을 변환한다면, clone-voice는 소스 음성만을 사용해 음성을 복제하는 무료 도구이다.

NVIDIA CUDA 가속을 지원하지만, GPU 없이 CPU만으로도 사용할 수 있다.

한국어, 영어, 일본어, 중국어 등 총 16개 언어를 지원하며 마이크를 사용해 녹음한 음성을 소스로 사용할 수도 있다.

clone-voice 다운로드

clone-voice(필수): clone-voice-vx.xxxx.7z

모델(필수): 다운로드(model-tts.7z, model-sts.7z 두 개 다 다운로드)

clone-voice 사용하기

내려받은 clone-voice 압축 파일을 적당한 폴더에 압축 해제하고, 모델 파일은 사진처럼 tts 폴더 안에 압축 해제하면 된다

내려받은 clone-voice 압축 파일을 적당한 폴더에 압축 해제하고, 모델 파일은 위 사진처럼 tts 폴더 안에 압축 해제하면 된다.

app.exe 실행하면 명령 프롬프트 창에서 뭔가가 실행되다가, 잠시 후 웹브라우저가 열리면서 clone-voice WebUI 화면이 열린다.

app.exe 실행하면 명령 프롬프트 창에서 뭔가가 실행되다가, 잠시 후 웹브라우저가 열리면서 clone-voice WebUI 화면이 표시된다(http://127.0.0.1:9988).

음성 합성 작업 시작

① 소스로 사용할 사람 목소리 파일을 선택하고,
② 언어와 말하기 속도를 선택하고,
③ 합성할 텍스트를 입력하고,
④ [Start generating immediately]를 클릭하면,

음성 합성이 시작된다. 작업 시간은 위 사진 같은 경우 Ryzen 3 5300U에서 대략 50초 정도 소요되었다.

합성 효과를 높이려면 5~20초 정도의 명확하고 정확하게 발음된 소음이 없는 음성 소스를 사용하는 것이 좋다.

위 사진처럼 Audacity 음성 편집기를 사용해 깨끗한 음성 부분만 내보낼 수 있고, 배경음이 있는 경우는 「간단한 보컬 반주 음원 분리 도구」를 사용해 음성과 배경음을 분리할 수 있다.

clone-voice 테스트 1

clone-voice 첫 번째 테스트는 오픈월드 어드벤처 온라인 게임인 원신의 페이몬 한국어 음성을 복제해 봤다.

페이몬 음성 소스는 캐릭터 정보에 있는 것을 사용했다. 아래 첫 번째 동영상은 페이몬 원본 음성(clone-voice 소스로 사용), 두 번째 동영상은 페이몬 음성 소스를 가지고 합성한 음성, 세 번째 동영상은 이종환 씨 음성을 가지고 합성한 음성이다.

페이몬 음성 합성 결과물은 소스와 많은 차이가 나지만, 이종환 씨 음성 합성 결과물은 원래 목소리와 꽤 비슷하다.

clone-voice 테스트 2

그래서 두 번째 테스트는 이종환 씨 음성을 소스로 사용해 2024년 ‘이종환의 밤의 디스크쇼’ 오프닝 멘트를 짤막하게 만들어봤다.

첫 번째 동영상은 음성 합성에 사용한 이종환 씨 음성 소스이고, 두 번째 동영상이 clone-voice를 사용해 합성한 이종환 씨의 새 음성이다.

페이몬 음성 합성과는 달리 이종환 씨 음성 복제 결과물은 얼핏 들으면 꽤 비슷할 정도로 괜찮은 것 같다. 여성 목소리보단 남성 목소리 복제가 더 원본과 흡사한 느낌이랄까?

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요