2024/10/01

텍스트-오디오 생성기 | EzAudio

텍스트-오디오 생성기 | EzAudio

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

text-to-image, 즉 텍스트를 input으로 받고 이미지를 output으로 내는 deep learning model의 하나인 Stable Diffusion처럼 EzAudio는 text-to-audio, 즉 텍스트 프롬프트에서 고품질 오디오를 생성하는 딥러닝 모델이다.

Tencent AI Lab과 Johns Hopkins University에서 개발한 EzAudio는 SUNO AI처럼 악기로 연주되는 사실적인 노래 음악을 생성하는 것이 아니라 강아지 짖는 소리, 트럭 엔진이 켜지고 트럭 경적 소리가 울리는 소리 등과 같은 사실적인 음향 효과 생성을 제공한다.

EzAudio 오프라인 패키지 다운로드

출처: jian27.com

다운로드1 / 다운로드2

EzAudio 오프라인 패키지 실행

텍스트-오디오 생성기 | EzAudio

압축 해제 후 run.bat로 실행하면 되는데 CPU만으로는 오디오 생성이 안 되는 것 같다. 다른 AI 도구처럼 NVIDIA GPU가 필수인 듯. 대신 huggingface에서 제공하는 EzAudio 데모 「EzAudio: High-quality Text-to-Audio Generator」를 사용해 볼 수 있다.

오프라인 패키지는 최대 30초, 데모는 최대 10초 오디오를 생성할 수 있다.

EzAudio 테스트

첫 번째 영상 텍스트 프롬프트: The sound of a puppy begging to play.

두 번째 영상 텍스트 프롬프트: Light classical guitar music is played, and at the same time, the sound of a dog barking can be heard.

세 번째 영상 텍스트 프롬프트: Thunder rumbles and rain pours down on the lake.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요