2023/11/03

자막 생성, 번역, 더빙을 한 번에 | pyvideotrans

자막 생성, 번역, 더빙을 한 번에 | pyvideotrans

Subtitle creation, translation, and dubbing all at once | pyvideotrans
<한창 작업 중>

네 가지 AI 기술을 한 방에

오늘 소개하는 AI 도구는 매우 집약적인 프로그램이라고 할 수 있겠다. 무려 네 가지 AI 기술을 사용하니까 말이다.

1. OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델 Whisper를 사용해 동영상에서 사람의 음성을 인식해 자막 생성
2. 이 자막을 구글 기계 번역을 사용해 다른 언어로 번역
3. Microsoft Edge TTS의 텍스트 음성 변환 합성 기술을 사용해 더빙
4. Spleeter 기술을 사용해 배경음악을 제거

등 네 가지 AI 기술을 한 번에 적용할 수 있다는 것도 놀랍지만, 이 모든 기능을 구매나 수수료 없이 무료로 사용할 수 있으니 더더욱 놀랍다.

pyvideotrans 다운로드

https://github.com/jianchang512/pyvideotrans/releases
(오늘 테스트는 버전 0.6.1을 사용)

video-translate 사용 방법

Subtitle creation, translation, and dubbing all at once | pyvideotrans

사용법도 아주 간단하다. 내려받은 파일의 압축을 해제하고 sp.exe를 실행(자세한 도움말은 이 문서를 참고)

① 원본 비디오: mp4 비디오를 선택
② 출력 디렉터리: 기본값은 같은 폴더의 [_video_out] 폴더에 저장
③ 네트워크 프록시: 중국처럼 Google 접속이 불가능한 사람들만 해당
④ 원본 영상 언어: 원본 영상의 언어 선택
⑤ 번역 대상 언어: 번역할 언어 선택
⑥ 더빙 선택: 번역 결과를 토대로 더빙
⑦ Whisper 모델: base/small/medium/large(모델 크기가 커질수록 인식 효과는 향상되지만, 인식 속도는 느려짐. 다운로드 과정 필요)
⑧ 더빙 속도: -90 ~ +90 사이의 숫자 입력
⑨ 무음 세그먼트: 100~2000(ms) 사이 숫자 입력. 기본값은 500(이는 500ms 이상의 묵음이 있는 세그먼트가 음성 분할을 위한 기초로 사용됨을 의미)
⑩ 자동 가속: 더빙할 음성 지속 시간이 원본 음성 지속 시간보다 긴 경우 더빙을 강제로 가속
⑪ 배경음악 제거: 정확한 결과를 위해 배경음악을 제거
⑫ 자막 포함: 동영상에 자막 포함
⑬ "Start"를 클릭하면 작업이 진행되며 현재 진행 상황이 오른쪽에 표시. 자막은 하단의 흰색 텍스트 상자에 표시

pyvideotrans 테스트 #1

YTN 날씨 뉴스의 한국어 아나운서 음성을 영어로 변경해 봤다. 위는 유튜브 원본 영상이고, 그 아래는 pyvideotrans를 사용해 영어로 더빙한 것이다.

더빙된 음성 속도가 들쑥날쑥한 것은 [Auto acceleration] 기능을 사용했기 때문이다. 한국어를 영어로 번역하면 문장 길이가 더 늘어나는 경우가 많으므로 더빙된 음성의 길이도 원본 음성보다 더 길어진다. 이럴 때 [Auto acceleration] 기능을 사용해 원본 음성 길이와 더빙된 음성 길이를 동기화할 수 있다.

pyvideotrans 테스트 #2

두 번째 테스트는 Weathernews 2023년 6월 22일 날씨 영상을 가지고 작업했다. 위는 유튜브 원본 영상이고, 그 아래는 pyvideotrans를 사용해 한국어로 더빙한 것이다.

마무리

잠깐 테스트를 해보면서 느낀 pyvideotrans의 단점은 역시 작업 속도이다. 「AI 기반 무료 동영상 자막 제작 | Whisper」처럼 GPU 가속을 지원하지 않아 작업 속도가 매우 더디다. 두 번째 테스트인 일본 날씨 뉴스 영상 1분짜리를 작업하는데 (Ryzen 3 5300U에서) 8분 정도 소요되었다(만약 자막 생성 과정만 Whisper Desktop의 GPU 가속을 사용할 수 있다면, 여기서 2~3분 정도는 더 단축될 수 있을 것 같기도 하다).

그렇지만, 이런저런 복잡한 과정을 하나의 인터페이스에서 모두 해결할 수 있고, 고가의 GPU 없이도 원하는 결과물을 얻을 수 있다는 장점이 있다.

그렇다고 pyvideotrans 도구를 어디에다 써먹어야 좋을지 지금 당장 떠오르는 것은 없지만, 이건 어디까지나 나의 우물 안 개구리 식의 좁은 식견 때문일 것이고, 잘만 하면 굉장하지는 않더라도 재밌게 써먹을 곳이 있을 것 같다. 예를 들면, 일본 AV 비디오를 한국어로 더빙?

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요