2024/06/27

오픈 소스 텍스트 음성 변환 + 모델 | Bark GUI

오픈 소스 텍스트 음성 변환 + 모델 | Bark GUI

AI 기술을 활용한 TTS 도구 Bark

최근 AI 기술을 활용한 TTS(text-to-speech) 도구가 많이 보인다. AI TTS가 기존의 구글/엣지 TTS보다 뛰어난 점은 사람이 말하는 것 같은 자연스러운 어조와 문맥에 어울리는 감정적인 표현이 가능하다는 점이다. 반면에 AI TTS는 높은 사양을 요구한다. 오픈 소스 프로젝트인 Bark도 그중 하나인데, Bark GUI 버전은 명령 프롬프트 기반의 Bark에 몇 가지 기능을 더 추가한 다음 사용하기 편한 WebUI 버전(Bark UI Enhanced)으로 패키징한 것이다.

Bark는 Suno(텍스트로 오디오를 생성하는 AI)가 만든 건데, 다른 TTS 도구와 다른 점은 웃음, 한숨, 울음 같은 간단한 비언어적 의사소통과 서로 다른 사람이 대화하는 것처럼 들리는 오디오도 제작할 수 있다.

Bark UI Enhanced는 CPU 버전과 CUDA 버전이 있는데, CPU 버전 오프라인 패키지는 아래 PikPak으로 받을 수 있고, CUDA 버전은 Bark GUI Installation 문서를 참고하면 된다.

Bark GUI 주요 기능

네트워크 그래픽 사용자 인터페이스 및 서버: Bark-GUI는 사용자가 조작하기 쉽고 이해하기 쉬운 웹 사용자 인터페이스를 제공합니다. 이 인터페이스를 통해 음성 합성, 음성 대체 등을 포함한 모든 작업을 완료할 수 있습니다.

큰 텍스트 생성 기능: Bark-GUI는 매우 큰 텍스트 단락을 덩어리로 생성하고 다양한 부분을 최종 결과로 결합할 수 있습니다.

음성 복제 기능: Bark-GUI는 음성 복제 기능을 제공합니다. 사용자는 자신의 음성 샘플을 입력하고 해당 내레이터를 얻을 수 있습니다.

음성 교체 기능: Bark-GUI를 사용하면 사용자가 오디오의 음성을 교체하여 현재 내레이터를 사용자가 선택한 내레이터로 바꿀 수 있습니다.

유연한 모델 선택: Bark-GUI를 사용하면 사용자가 작거나 큰 모델을 쉽게 선택할 수 있으며 유연성을 높이기 위해 몇 가지 명령줄 매개변수를 추가할 수 있습니다.

다중 GPU 및 CPU 작동 모드 지원: Bark-GUI는 NVIDIA/Apple GPU를 활용하여 작업을 수행하거나 실행을 위해 CPU를 강제로 사용할 수 있습니다.

SSML 입력 방법 지원: Bark-GUI는 SSML 입력을 허용

Bark GUI 오프라인 버전 다운로드

Bark 홈페이지: github.com/suno-ai/bark
Bark GUI 홈페이지: github.com/C0untFloyd/bark-gui

Bark GUI CPU 오프라인 버전: 다운로드


Open in Colab

Bark GUI 사용하기 #1

Bark UI Enhanced

1. Must run this first.bat | 2. run.bat
순서로 실행하면, 잠시 후 [Bark UI Enhanced] WebUI 창이 열린다.

Input Text: 음성으로 변환할 텍스트 입력(자세한 것은 Examples 참고)
Voice: 음성 선택

일단 간단하게 이 정도만 설정하고, [Generate]를 클릭하면 TTS 작업이 시작된다.

위 사진처럼 텍스트를 ‘♪’로 묶으면 노래하는 오디오를 생성할 수 있다고 한다. 그래서 윤종신 불후의 명곡 ‘오래전 그날’의 가사를 입력해 봤는데, 그 결과는 아래와 같다. 노래한다기보단 시를 읊는 것 같다.

[Convert Input Text to SSML]를 클릭하면 [Input Text]에 입력한 프롬프트 형식을 SSML(XML) 포맷으로 변환한다. (아래에서 테스트하겠지만) 좀 더 섬세한 TTS 제작을 원하면 SSML 포맷을 사용해야 한다.

Bark GUI 사용하기 #2

Bark GUI 사용하기 #2

Bark는 서로 다른 사람이 대화하는 것 같은 사실적인 오디오 제작이 가능하다. 이를 위해선 앞에서 언급한 SSML 포맷을 이용해야 한다.

위는 다음과 같은 남자와 여성의 대화(드라마 '미생'에서 참고)를 Bark UI Enhanced와 Colab를 사용해 오디오로 제작하는 과정이다.

MAN: 고객님, 어느 분이 입으실 겁니까?
WOMAN: 이거 신상이지? 얼만가?
MAN: 위아래 합해 102만 4,000원입니다.
WOMAN: 뭐어? [laughter]

한국어 보이스 모델(v2/ko_speaker_x)에는 여자 음성이 없는 것 같아 [WOMAN]에는 일본어 보이스 모델(v2/ja_speaker_9)을 사용했다. 여성의 마지막 한마디 후 [laughter] 프롬프트가 제대로 동작하는 것을 들을 수 있다.

CPU 성능이 낮은 사람은 Colab을 활용할 것을 추천하는데, TTS 결과물 품질은 Colab(Bark 오리지널 버전)보다 Bark UI Enhanced가 좋았다.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요