2023/06/22

,

AI 기반 무료 동영상 자막 제작 | Vosk

AI 기반 무료 동영상 자막 제작 | Vosk

오픈 소스 음성 인식 개발환경, Vosk

Vosk는 Whisper처럼 자동 음성 인식(ASR) 또는 음성 텍스트 변환을 지원하는 오프라인 오픈 소스 음성 인식 개발환경이다. 그래서 오늘은 지난번 WhisperDesktop 테스트에 이어 또 다른 무료 동영상 자막 제막 프로그램인 Vosk를 간단하게 테스트해봤다.

Vosk도 Whisper처럼 크고 작은 유형의 모델이 있으며 대형(large) 모델은 고급 AI 알고리즘을 적용하기 때문에 많은 메모리가 필요하다고 한다(최대 16GB).

Vosk는 리눅스, OSX, Windows에서 사용할 수 있으며 Windows 같은 경우 명령 프롬프트에서 실행할 수 있다.

AI Powered Free Video Subtitling | Vosk
<Vosk를 사용해 동영상에서 자막 생성하기>

Vosk 지원 언어

영어, 인도식 영어, 독일어, 프랑스어, 스페인어, 포르투갈어, 중국어, 러시아어, 터키어, 베트남어, 이탈리아어, 네덜란드어, 카탈로니아어, 아랍어, 그리스어, 페르시아어, 필리핀어, 우크라이나어, 카자흐어, 스웨덴어, 일본어, 에스페란토, 한국어

Vosk로 동영상 자막 생성하기(Windows)

1. 파이선(Python) 설치: www.python.org/downloads
(Vosk는 명령 프롬프트 기반이다. 이하 명령 프롬프트 창에서 실행)
2. pip install vosk(vosk 설치)
3. pip install srt(srt 설치)
4. 다운로드 FFmpeg 및 ffmpeg.exe 폴더를 환경 변수에 추가(아래 사진 참고)

AI Powered Free Video Subtitling | Vosk
<ffmpeg.exe 위치를 환경 변수에 추가해야 한다>

5. vosk-transcriber –n (모델명) -l (언어) -i (오디오/동영상파일) -t srt –o (출력파일이름).srt
예) vosk-transcriber -n vosk-model-en-us-0.22 -l en -i 1.mp4 -t srt -o 1.srt
vosk-transcriber —help(Vosk 도움말)
vosk-transcriber —list-model(모델 리스트)
vosk-transcriber —list-languages(언어 리스트)
Vosk 공식 문서: alphacephei.com/vosk
C:\Users\(사용자이름)\.cache\vosk(모델 파일 저장 위치)

WhisperDesktop vs Vosk 1: 영어 인식(Model: large)

애니메이션 마이티 익스프레스(Mighty Express) 중 1분 정도의 음성을 WhisperDesktop과 Vosk를 사용해 자막으로 만든 다음 두 자막을 동영상에 추가해 비교해보면(위의 자막이 Vosk로 만든 것, 아래 자막은 WhisperDesktop 만든 것), WhisperDesktop의 인식률이 압도적으로 좋은 것을 알 수 있다.

인식 속도는 WhisperDesktop는 1분 5초, Vosk는 41초 정도 걸렸으며 사용한 모델은 WhisperDesktop은 large, Vosk는 vosk-model-en-us-0.22.

WhisperDesktop vs Vosk 2: 한국어 인식(Model: small)

이번엔 드라마 「김과장」 중 1분 정도의 음성으로 ASR 인식률을 비교해봤다. 현재 Vosk의 경우 한국어 모델은 small밖에 지원하지 않아 WhisperDesktop도 small 모델을 사용했다. 한국어 음성 인식률도 영어 인식률과 마찬가지로 WhisperDesktop이 압도적으로 좋은 것을 알 수 있다.

인식 속도는 WhisperDesktop는 14초, Vosk는 11초 정도 걸렸으며 사용한 모델은 WhisperDesktop은 small, Vosk는 vosk-model-small-ko-0.22.

마무리

이 문서에 추기하지는 않았지만, 일본 애니메이션의 일본어 음성 인식도 테스트해봤는데 앞의 두 테스트와 마찬가지로 인식률 차이는 비교할 바가 안 될 정도로 WhisperDesktop이 좋다.

Vosk의 장점은 작업 속도가 빠르고 PC 사양에 구애받지 않는다는 것 정도인데, 그에 반해 인식률이 많이 떨어지므로 Vosk보다는 Whisper 기반의 자막 생성 프로그램을 추천한다.

Vosk보다 인식률이 높은, 「AI 기반 무료 동영상 자막 제작 | Whisper」 추천!!!

AI Powered Free Video Subtitling | Vosk
<Vosk, WhisperDesktop: large 모델을 사용할 경우 메모리 사용량>

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요