쉽고 간단한 동영상 자막 제작 | Faster-Whisper-GUI
전사 속도 단축에 최적화된 Faster-Whisper
Whisper는 OpenAI에서 개발한 음성 인식 모델이고 Faster-Whisper는 Whisper 모델에서 파생된 프로젝트 중 하나다. Whisper 모델은 다양한 음성 데이터를 학습하여 높은 정확도의 음성 인식을 목표로 개발되었는데, 나 같은 경우 음성 인식 및 음성 텍스트 변환(ASR, Automatic Speech Recognition) 기술을 동영상 자막 제막에 활용한다.
Faster-Whisper는 전사 속도 향상에 중점을 둔 일종의 Whisper 최적화 버전인데, 이게 NVIDIA CUDA 시스템에만 해당하는 사항이지 CPU에선 큰 속도 향상이 없다. 고로 AMD/INTEL 사용자는 「AI 기반 무료 동영상 자막 제작 | Whisper」에서 소개한 WhisperDesktop을 사용할 것을 추천한다.
Faster-Whisper 버전을 알게 된 것은 오래되었는데, DirectML(Direct Machine Learning)을 지원하지 않으므로 나 같은 AMD 사용자에겐 쓸모가 없고, 또한 명령 프롬프트 기반이라 사용하기도 번거로워 블로그에 소개하기를 망설였는데, 사용하기 편한 GUI 버전을 발견해 간단하게 테스트해 봤다.
참고로 예전에 구글 Colab에서 Faster-Whisper와 그냥 Whisper를 사용해 일본 영화 몇 편을 전사해 본 적이 있었는데, 속도는 Faster-Whisper가 월등히 빠르지만, 빼먹는 대화가 많아 결국 Faster-Whisper 사용을 포기한 경험이 있다. 고로 처음으로 Faster-Whisper를 사용하는 사람은 이 점을 반드시 확인해 볼 필요가 있다.
Faster-Whisper-GUI 다운로드
https://github.com/CheshireCC/faster-whisper-GUI
https://github.com/CheshireCC/faster-whisper-GUI/releases
┗ 모델 저장 위치: C:\Users\(사용자)\.cache\huggingface
Faster-Whisper-GUI 간단하게 살펴보기
Faster-Whisper-GUI 설치 후 가장 먼저 해야 할 일은 모델 다운로드이다. [Download Model Online]에서 모델을 선택하고, [Load Model]을 클릭하면 모델 파일을 내려받는다.
개인적으로 large-v3보단 large-v2를 추천한다. 검색해 보면 알겠지만, (아래 테스트 결과에선 잘 드러나지 않지만) large-v3는 v2보다 전사율이 떨어진다는 평가가 많다. 개인적으로도 둘 다 사용해 본 결과 v3보다 v2가 낫다. 그리고 distil 모델은 영어 자막만 생성되니 선택하지 말자.
AMD/INTEL 사용자는 [Device]는 CPU로 설정하는 것도 잊지 말자. 나머진 기본값 그대로 사용하면 된다.
WhisperDesktop은 사용법이 매우 간단한 대신 ‘사용자 설정’이 전혀 없다. 하지만, Faster-Whisper-GUI는 고급 사용자를 위한 세밀한 설정이 가능하다는 장점이 있다(잘 모르면 기본값을 사용해도 무방). 그중 하나가 Silero VAD(Voice Activity Detection)이다.
VAD는 오디오 신호에서 실제 음성 활동이 있는 구간을 감지하는 기술로, ‘환청’ 같은 잡음을 줄이고 작업 시간을 단축하는 효과가 있다. 한마디로 Silero VAD는 Faster-Whisper와 같은 음성 인식 시스템에서 음성 구간을 정확하고 효율적으로 탐지하여, 전반적인 인식 성능을 향상한다. 고로 자세한 것은 잘 모르더라도 기본값 그대로 사용해도 효과를 볼 수 있다.
[Transcribe]과 관련된 세부적인 설정도 가능하다. 각 설정에 대한 자세한 설명은 Whisper 문서나 구글 검색을 활용하면 되고, 나 같은 경우 아래 값을 사용한다. 사실 이런 세부적인 설정은 기본값으로 사용해도 결과엔 큰 차이는 없는 것 같기도 하다.
no_speech_threshold=0.5
logprob_threshold=None
compression_ratio_threshold=2.2
condition_on_previous_text=False
Faster-Whisper-GUI vs WhisperDesktop, 한국어 전사율 간단 비교
전사 테스트에 사용된 소스는 KBS 드라마 「김과장」과 영화 「영자의 전성시대」.
Faster-Whisper-GUI와 WhisperDesktop는 전사 성능에 큰 차이는 보이지 않지만, Faster-Whisper-GUI에서 생성한 자막이 VAD 기술 때문인지 싱크가 잘 맞는 것을 알 수 있다.
「김과장」 전사 결과를 보면 large-v3는 장문을 단문으로 끊는 경향이 있다. 이게 보기는 좋지만, 이렇게 생성한 자막을 다른 언어로 번역하고자 할 땐 오히려 번역 품질을 떨어트리는 역효과로 작용한다(알다시피 긴 장문을 끊어서 번역하는 것보단 그대로 번역하는 것이 번역 완성도는 높다). 고로 자막 번역을 위해 전사한다면, large-v3보단 large-v2가 더 나을 수도 있다.
드라마 「김과장」(1분 정도) 동영상을 한국어로 전사하는 데 걸린 시간은 Ryzen 3 5300U에서 Faster-Whisper-GUI는 3분 12초, WhisperDesktop은 1분 34초가 소요되었다.
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요