AI 디지털 캐릭터 제작 도구 | SadTalker
출처: AI数字人制作工具SadTalker(附教程)
SadTalker는 AI 기술과 시뮬레이션 기술을 이용해 가상의 캐릭터를 만들어 내는 도구이다. 출처엔,
사람의 외모, 음성, 인지 능력을 결합하여 사람과 의사소통하고 상호작용할 수 있으며, 일반적으로 컴퓨터 그래픽과 가상 현실 기술을 통해 생성되며 필요에 따라 다양한 외모 특징, 표정, 몸짓으로 디자인할 수 있다.
라고 설명되어 있는데, 그 정도의 결과물을 만들어 내려면 고사양 PC와 좀 더 깊은 학습이 필요할 것 같고, 일단 오늘 공유한 SadTalker 도구로 쉽게 할 수 있는 작업은 ‘음성 연기’ 정도이다. 즉,
‘소스 오디오 + 소스 이미지 = 소스 이미지가 소스 오디오로 말하는 동영상’
을 제작할 수 있다.
방송에 나오는 AI 아나운서 같은 매우 사실적인 결과물에는 못 미치지만, 최근 들어 여러 가지 AI 기술이 보편화되면서 예전엔 전문가들만 사용하던 고난도와 높은 비용을 요구하는 기술을 일반 사용자들도 사용할 수 있게 되었다는 것이 중요하다.
아래 Portable 버전은 github/SadTalker에 있는 소스를 기본으로 원클릭 패키지로 제작하여 출처에서 공유한 것이다.
준비물
(필수) SadTalker for Windows Portable: 다운로드
(선택) 소스에 사용할 이미지, 음성, (표정을 참고할) 동영상 등
SadTalker for Windows Portable 실행하기
압축을 해제하고 WEBUI运行.bat 실행 후 ‘Running on local URL: http://127.0.0.1:7860’이란 문장이 나타나면 웹브라우저로 http://127.0.0.1:7860에 접속해 SadTalker WebUI를 사용할 수 있다. 다만, SadTalker는 다른 AI 도구처럼 CUDA 장치가 기본 설정이고, CUDA 없는 기기에서 작업을 시작하면,
Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location=torch.device('cpu') to map your storages to the CPU
라는 오류 메시지가 뜨면서 작업이 중단된다. CPU 사용자는,
\python38\Lib\site-packages\torch\serialization.py
파일을 텍스트 편집기로 열어서 위 사진처럼 map_location: MAP_LOCATION 값을 ‘cpu’로 변경해 주고 WebUI를 다시 시작하면 된다.
①에 소스 이미지를 추가(얼굴 윤곽이 뚜렷한 사진이나 동영상)
②에 더빙할 음성을 추가
③에 참조할 표정이 있는 동영상 추가(없으면 학습된 기본 모델을 사용)
④얼굴 해상도 설정(512로 설정하면 선명하지만 그만큼 시간이 오래 걸림)
⑤Face enhancer(얼굴 강화), 선택하면 시간이 오래 걸림
끝으로 [生成(생성)]을 클릭하면 캐릭터 생성이 시작된다.결과물은 results 폴더에 저장되고, 아래 동영상은 원클릭 패키지에 기본으로 포함된 test.png를 이미지 소스로, test.wav를 음성 소스로, eye.mp4를 참조 동영상으로 선택해서 만든 결과물이다.
SadTalker 테스트 1
이미지 소스: pixabay
오디오 소스: 원신(페이몬 음성 1)
참조 동영상: eye.mp4
Face enhancer: OFF
face model resolution: 256
SadTalker 테스트 2
이미지 소스: pixabay
오디오 소스: 원신(페이몬 음성 2)
참조 동영상: 없음
Face enhancer: ON
face model resolution: 512
업스케일링: 사용
SadTalker 테스트 3
이미지 소스: pixabay
오디오 소스: 원신(페이몬 음성 2)
참조 동영상: 유튜브(가이안 GAIAN)
Face enhancer: ON
face model resolution: 512
SadTalker 테스트 4
이미지 소스: 유튜브(가이안 GAIAN)
오디오 소스: 원신(페이몬 음성 2)
참조 동영상: 없음
Face enhancer: ON
face model resolution: 512
업스케일링: 사용
구글 Colab에서도 사용할 수 있다. 내 PC에서의 SadTalker 작업 시간이 너무 느리다면 사용해 보자. 나 역시 위 동영상 중 테스트 2와 테스트 4는 Colab에서 만든 것이다.
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요