AI 동영상 배경음 생성 | MMAudio
프롬프트 기반 동영상/사진 배경음 생성
MMAudio는 텍스트 프롬프트 입력을 기반으로 동영상의 동기화된 오디오를 생성하는 깃허브 프로젝트이다. 다시 말해, 사용자가 제시한 텍스트 프롬프트를 참고해 동영상 장면에 맞는 오디오/효과음을 생성해 주는 AI 도구다.
비디오 메모리 8GB 이상의 NVIDIA GPU가 필요한데, 구글 Colab에서도 사용할 수 있다는 것. 데모는 8초 미만의 효과음만 생성할 수 있다.
MMAudio 특징
기술적 혁신: MMAudio의 핵심 혁신은 다중 모드 공동 훈련(multimodal joint training)으로, 이는 다양한 오디오-비주얼 및 오디오-텍스트 데이터셋에서 훈련할 수 있게 해줍니다. 또한, 동기화 모듈이 생성된 오디오를 비디오 프레임과 정렬합니다.
오디오 생성: MMAudio는 비디오 또는 텍스트 입력을 통해 오디오를 생성할 수 있습니다. 비디오-오디오 및 텍스트-오디오 합성을 지원하며, 실험적으로 이미지-오디오 합성도 가능합니다.
모델 다운로드: 프로젝트는 사전 훈련된 모델을 자동으로 다운로드하며, 사용자는 `demo.py` 스크립트를 실행하여 오디오를 생성할 수 있습니다. 기본적으로 8초 길이의 오디오가 생성되며, 사용자는 비디오 경로와 프롬프트를 제공할 수 있습니다.
MMAudio 소스 다운로드
MMAudio: https://github.com/hkchengrex/MMAudio
MMAudio 샘플: 「Comparisons with Movie Gen Audio on Videos Generated by MovieGen」
테스트에 사용한 이미지/동영상 출처: https://pixabay.com/
Colab for MMAudio
MMAudio.ipynb Colab에 접속해 순서대로 3까지만 실행한다. 실행 전에 런타임 유형은 T4로 연결하는 것 잊지 말자.
프로그래밍을 모르는 내가 작성한 것이라 어떤 문제가 발생할 수 있고, 그렇더라도 나에게 질문하기보단 AI에게 물어보자.
python demo.py --duration=8 --video=<path to video> --prompt "your prompt“
위의 명령 프롬프트로 사용할 사람은 그냥 4를 진행하면 되고, 웹 UI를 사용하고 싶은 사람은, gradio_demo.py 파일의 맨 마지막 줄을 편집해야 한다. launch 명령에 share=True 옵션을 추가한 다음 코드를 실행하자. 다운로드할 파일이 많아 꽤 시간이 걸린다.
allowed_paths=[output_dir]) → allowed_paths=[output_dir], share=True)
코드 실행이 완료되면,
* Running on public URL: https://xxxxxxx.gradio.live
링크가 생성되고 이 링크를 클릭하면 MMAudio 웹 인터페이스를 사용할 수 있다.
Video-to-Audio, Text-to-Audio, Image-to-Audio (experimental)를 사용할 수 있고, 최대 8초의 오디오 생성이 가능하다. [Duration (sec)] 값을 9 이상으로 하면 에러가 나면서 코드 실행이 중지된다.
또 하나 주의할 것은 원본 이미지/동영상의 해상도가 규격에서 벗어나도 오류가 나면서 코드 실행이 중지된다. 또한, 1080p 같은 고해상도 이미지/동영상을 사용한다고 해서 결과물 품질이 좋아지는 것은 아니고, 처리하는 데 시간만 더 오래 걸린다고 하니, 720p 정도의 소스를 사용할 것을 추천. 이때 해상도는 반드시 규격에 맞는 1280x720이어야 한다.
[ERROR] : height not divisible by 2 (1280x841)
MMAudio, Video-to-Audio 테스트
텍스트 프롬프트: The sound of a ship sailing the sea.
텍스트 프롬프트: A medium-sized dog swimming in a stream.
텍스트 프롬프트: The sound of a Harley biker speeding down the road.
MMAudio, Image-to-Audio 테스트
텍스트 프롬프트: A baby crawling and laughing.
텍스트 프롬프트: Motorcycle racing scene.
비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요