2022/12/01

오디오/동영상 음성을 텍스트 및 자막으로 변환 | Buzz

오디오/동영상 음성을 텍스트 및 자막으로 변환 | Buzz

오디오를 기록하고 텍스트로 변환 및 번역 | Buzz

동영상 자체에 입혀져 있는 자막 추출하기 #2」 문서에 예시된 대로 영화나 드라마 같은 동영상에 이미지 형태로 각인된 자막을 추출하는 방법이 있다면, Buzz는 (동영상, 또는 오디오북 같은 녹음된 오디오 파일의) 음성 데이터를 텍스트나 srt 같은 자막 파일로 필사 및 번역해주는 무료 프로그램이다.

Buzz는 이미지에 그림 형태로 입혀진 문자를 텍스트로 변환해주는 인공 지능 기술인 OCR(예: ABBYY FineReader) 비슷하게 음성을 텍스트로 변환해주는 인공 지능인 Whisper라는 범용 음성 인식 모델을 사용한다.

참고로 Whisper는 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 다국어 음성 인식은 물론 음성 번역 및 언어 식별을 수행할 수 있는 멀티태스킹 모델이다.

Buzz 다운로드(Windows, MAC)

github.com/chidiwilliams/buzz/releases


내장 GPU 가속을 사용할 수 있는 WhisperDesktop도 추천!, 「AI 기반 무료 동영상 자막 제작 | Whisper

Buzz로 영화/드라마 자막 만들기

Convert audio/video voice to text and subtitles | Buzz

1. 오늘 테스트에 사용한 동영상은 mkv 파일이라 Buzz에서 사용할 수 없다(오디오 파일: mp3, wav, m4a, ogg, 비디오 파일: mp4, webm, ogm 정도만 사용 가능). 그래서 ShanaEncoder로 동영상에서 오디오 파일만 MP3 형태로 추출했다. 그 방법은 대략 다음과 같다.

① ShanaEncoder [빠른 설정]의 인코딩 탭에서 [파일 형식]은 mp3 선택
② [비디오 코덱]은 [없음(제외)]로 설정
③ [오디오 코덱]은 [MP3]를 선택하고, [오디오 비트레이트]와 [채널]은 적절하게 설정

Convert audio/video voice to text and subtitles | Buzz

2. 이렇게 얻은 오디오 파일을 Buzz에서 불러온다.

Convert audio/video voice to text and subtitles | Buzz

3. ① [Task]: "Transcribe"는 오디오를 선택한 언어의 텍스트로 변환하고 "Translate"는 영어 텍스트로 번역하는 작업이다. 오늘은 드라마 음성을 텍스트(또는 자막)로 추출할 것이므로 "Transcribe"를 선택한다.
② [Language]: 오디오 언어 선택. 오늘 테스트에 사용한 영상은 한국 드라마이므로 한국어를 선택했다.
③ [Quality]: '오디오 -> 텍스트' 변환에 사용할 Whisper 모델 수준을 결정하는 것인데, "Very Low"부터 “High”까지 있으며 상위로 갈수록 인식률과 정확도가 향상되지만, 그만큼 작업 시간이 오래 걸린다.
④ [Export As]: 저장 포맷 설정. 텍스트(TXT) 문서로 저장할지 srt 자막 형식으로 저장할지 결정할 수 있다. [Word-level timings]에 체크하면 한 줄에 한두 단어씩 자막 라인을 설정하므로 절대 체크하면 안 된다.

모든 설정이 완료되었으면 [Run] 버튼을 눌러 작업을 시작할 수 있고, 처음 사용자는 Whisper 모델 라이브러리를 내려받는 과정을 거칠 수 있다.

구술한 것을 받아적는 속기사, Buzz

Convert audio/video voice to text and subtitles | Buzz

Buzz는 도스토옙스키가 구술한 것을 그의 아내이자 속기사인 안나가 받아적었던 것처럼 PC에서 재생되는 오디오를 녹음하고 실시간으로 텍스트로 변환할 수도 있다.

실시간 변환 작업엔 성능 좋은 CPU가 요구되므로 변환 작업은 녹음을 완료한 후에 해도 무방하다.

마무리

위 동영상은 Buzz의 "Transcribe" 기능으로 생성한 드라마 「변호사는 그렇게 쓰라고 있는 거야」 1편 자막을 팟플레이어에 삽입해 재생해 본 것이다.

재생 화면에서 윗부분의 자막은 [Quality: Very Low], 아랫부분의 자막은 [Quality: High]인데, 긴 시간을 소비한 만큼 ‘High’로 생성한 작업물의 음성 인식 수준이 (생각보다) 매우 높다는 것을 알 수 있다.

Buzz의 음성 인식 기술로 자막 생성은 물론, 녹음 • 구술 자료를 텍스트로 변환하는 필사 작업도 대신할 수 있으니 세상 참 많이 좋아졌다.

참고로 오늘 테스트에 사용한 「변호사는 그렇게 쓰라고 있는 거야」 1편(58분 34초 동영상)의 음성을 텍스트로 변환하는데 Ryzen 3 5300U CPU에서 "Very Low"는 대략 20분 정도, "Medium"는 대략 1시간 정도, “High”에서는 2시간 정도가 걸렸다.

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요