2023/06/02

, , ,

AI 기반 무료 동영상 자막 제작 | Whisper

AI 기반 무료 동영상 자막 제작 | Whisper

AI-Based Video Subtitle Production | Whisper
<Ryzen, Iris 내장 GPU도 사용 가능>

동영상 자막 자동 생성 | WhisperDesktop

WhisperDesktop은 OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델인 Whisper를 사용한 무료 동영상 자막 생성기이다. 사람이 쓴 글자를 인식하는 기술인 광학 문자 인식(Optical character recognition; OCR)이 베껴 쓰기라면 사람의 음성 언어를 받아적는 ASR은 받아쓰기라고 할 수 있으려나?

아무튼, 오늘 소개한 WhisperDesktop을 포함해 「오디오/동영상 음성을 텍스트 및 자막으로 변환 | Buzz」에서 소개한 Buzz, Whisper-WebUI 역시 Whisper 모델을 사용한다. 하지만, 세 프로그램은 하드웨어 사양에서 큰 차이가 있다. Buzz는 오직 CPU만 사용해 연산하고, Whisper-WebUI는 외장 GPU를 사용해 연산한다. WhisperDesktop 역시 GPU 연산을 사용하지만, Whisper-WebUI와는 달리 Direct3D 11을 지원하는 (내장 포함) 모든 GPU에서 사용할 수 있다.

고로 WhisperDesktop은 Ryzen, Iris의 내장 GPU를 사용하는 낮은 사양의 PC로도 Whisper 모델을 원활하게 사용할 수 있다는 것.

WhisperDesktop 다운로드

WhisperDesktop: 다운로드

Whisper-WebUI: 다운로드

Buzz: 다운로드

Whisper.cpp 모델 다운로드: ggml-large.bin(모든 모델 목록 보기)

WhisperDesktop 사용법

AI-Based Video Subtitle Production | Whisper

사용법은 간단하다. WhisperDesktop 실행 후 내려받은 모델 파일이 있는 경로를 지정해준다. 다음 화면에서 언어(이게 음성 언어를 지정하는 것인지 번역 언어를 지정하는 것인지 잘 모르겠음), Output Format(SubRip = srt)을 설정한 다음 [Transcribe]을 누르면 자막 제작이 시작된다.

AI-Based Video Subtitle Production | Whisper

large 모델을 사용하면 위 사진처럼 5GB 정도의 GPU 메모리를 사용한다. medium 모델을 사용하면 3GB 정도의 GPU 메모리를 사용한다.

large vs medium

AI-Based Video Subtitle Production | Whisper

드라마 「익스팬스(Expanse, S05/E04)」 영상 중 10분 10초 정도를 잘라내 medium 모델과 large 모델을 적용해봤다. 생각보다 인식 수준에 큰 차이가 난다. 당연히 medium보다 large가 좋다. Whisper 모델을 사용해 자막을 제작하려고 한다면 무조건 large 모델을 추천.

소요 시간은 medium 4분 32초, large는 9분 38초 걸렸다(Ryzen 3 5300U).

Buzz Whisper vs WhisperDesktop Whisper.cpp

AI-Based Video Subtitle Production | Whisper

Buzz는 Whisper 모델뿐만 아니라 (Whisper 모델의 고성능 추론 모델인) Whisper.cpp 모델도 사용할 수 있는 반면에 WhisperDesktop은 Whisper.cpp 모델만 사용할 수 있다.

위 동영상은 드라마 「김과장」 1편 중 1분 정도의 분량을 각각 Buzz(모델: Whisper Large)와 WhisperDesktop(모델: Whisper.cpp)를 사용해 만든 자막을 동영상에 삽입한 것이고, WhisperDesktop으로 만든 자막의 경우 자막 싱크가 3초 정도 어긋나 별도로 수정했다.

위 동영상의 경우 Whisper.cpp보다 Whisper 모델의 한국어 인식 능력이 조금 더 나아 보인다. 소요 시간은 CPU만 사용하는 Buzz(모델: Whisper Large)의 경우 (드라마 「김과장」 1편 중) 10분 정도의 영상을 가지고 자막을 생성하는데, 58분이 걸린 반면에 GPU 연산을 사용하는 WhisperDesktop(모델: Whisper.cpp)은 14분 51초가 걸렸다. 내장 GPU라지만, 없는 것보단 낫다!

마치면서...

아무튼, 자막 제작자들은 Whisper를 사용하면 자막 제작에 드는 시간을 그만큼 절약할 수 있지 않을까 싶다. Whisper가 생성한 자막을 한 번 검수하면 작업 끝? 여기에 AI 번역 기술까지 사용할 수 있으니 개인 자막 제작자들도 이전보다 쉽게 자막을 제작할 수 있을 것이다.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요