2024/03/13

무료 AI 음성 인식 자막 제작 도구 | stt

무료 AI 음성 인식 자막 제작 도구 | stt

faster-whisper 기반 오프라인 음성 인식 도구

stt는 「AI 기반 무료 동영상 자막 제작 | Whisper」에서 소개한 WhisperDesktop처럼 오프라인에서 실행되는 로컬 음성 인식 및 동영상 자막 생성 도구이다. 다른 점은 WhisperDesktop은 whisper.cpp 모델을, stt는 faster-whisper 모델을 사용한다는 점이다.

전사(Transcribe) 속도를 획기적으로 개선했다는 faster-whisper 모델이지만, 어디까지나 그건 NVIDIA CUDA를 사용했을 때의 이야기이고, CPU만 사용했을 땐 큰 개선은 없는 것 같다. 내장 GPU, 혹은 AMD 사용자는 faster-whisper보다는 OpenCL GPU 가속을 지원하는 WhisperDesktop이 속도 면에서 이점이 크다.

아무튼, stt는 WhisperDesktop처럼 초보자도 손쉽게 AI 음성 인식 기술을 사용해 동영상 자막을 생성할 수 있는 무료 오프라인 도구이고, 「TV문학관 21화 사라진 것들을 위하여」 중 2분 정도의 영상을 추출해 WhisperDesktop과 전사 속도 및 인식 품질을 간단하게 비교해 봤다.

stt 다운로드

stt(필수): 다운로드

모델(권장): 다운로드

stt 모델 설치 및 stt 실행

stt 모델 설치하기

내려받은 faster-whisper 모델은 [models] 폴더에 압축을 풀어주면 된다.

start.exe 파일로 stt 시작

start.exe 파일을 실행하면, 웹 인터페이스(WebUI)로 자동 연결된다(http://127.0.0.1:9977).

stt는 최신 모델인 large-v3 모델을 사용

stt는 최신 모델인 large-v3 모델을 사용했고, WhisperDesktop은 large-v3 모델을 사용하면 위 사진처럼 무한 루프에 빠지는 문제가 있어, large-v2 모델을 사용했다.

stt vs WhisperDesktop #1. 전사 속도

stt vs WhisperDesktop #1. 전사 속도

stt 같은 경우 GPU 가속은 CUDA만 지원하므로 CPU를 사용해 작업을 수행했고, WhisperDesktop은 OpenCL 가속을 지원하므로 내장 GPU를 사용해 작업을 수행했다.

당연히 전사 속도는 GPU 가속을 사용한 WhisperDesktop이 빠르다(Ryzen 3 5300U). 아무리 내장 GPU라도 없는 것보단 낫다.

stt vs WhisperDesktop #2. 전사 품질

테스트에 사용한 동영상이 사극이라 그런지 전반적으로 인식률이 다소 저조하다. 그리고 자막 싱크는 WhisperDesktop보단 stt가 더 잘 맞는 것처럼 보이지만, 초반부만 그렇고 이후부터는 둘 다 비슷하다.

지금쯤은 자막이 없어서 감상 못 하는 영화나 드라마는 거의 없을 것 같기는 한데, 아무튼 그런 레어한 영상이 있다면, ‘AI 자막 + 구글 번역’ 정도면 엔간한 감상은 가능할 것 같다.

댓글 3개:

  1. 안녕하세요 좋은 글 감사합니다. 일본어 음성 japanese 선택해서 large-v3로 했는데 영어로 생성되는데 일본어로 되게 할 수 없을까요..?

    답글삭제
  2. distil-whisper-large-v3.7z 가 아닌 large-v3 模型下载-墙外 이거 받으니 일본어로 되네요 감사합니다~~ㅎㅎ

    답글삭제
    답글
    1. v3보다 v2가 더 낫다는 평가도 있으니 v2로도 해보세요. 저도 v2만 사용합니다.

      삭제

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요