원클릭 ASR 무료 자막 생성기 | VideoCaptioner
빠르고 사용 쉬운 무료 자막 생성 도구
卡卡字幕助手(카카 자막 도우미, VideoCaptioner)는 고사양 PC 없이도 원클릭으로 자동 음성 인식(ASR) AI 기술을 사용하여 동영상의 자막을 생성하는 무료 도구이다. LLM(대형 언어 모델)을 사용한 자동 번역도 가능하고, 여러 동영상을 한 번에 처리하는 일괄 작업도 지원한다. VideoCaptioner가 지원하는 ASR 모델은 (아마도) Bilibili(必剪), Jianying(剪映) 등 두 개의 중국산 온라인 모델과 오프라인 모델인 Whisper.cpp다.
내가 보기에 VideoCaptioner의 음성 인식과 자막 생성 과정은 「빠르고 사용하기 쉬운 무료 음성 인식 도구 | AsrTools」에서 소개한 AsrTools 도구와 같은 방식으로 여겨진다. 즉, 동영상(또는 음성 파일)을 온라인 서버에 업로드 후 서버에서 전사 작업을 마친 후 그 결과를 클라이언트로 전송하는 것이다. 그래서 40분 정도의 드라마 한 편의 자막을 생성하는 작업도 (업로드 속도만 빠르다면) 1~2분 내로 완료된다. 고로 고용량 동영상 파일 전체를 작업에 추가하는 것보다 샤나인코더 같은 도구로 음성만 분리하거나 「간단한 동영상 무료 압축 도구 | compressO」 도구로 동영상 파일 크기를 줄여서 작업하는 것이 더 빠르다.
VideoCaptioner 특징
• 자동 자막 생성: 강력한 음성 인식 엔진을 통해 영상 속 음성을 빠르게 자막으로 변환하며, 다양한 언어를 지원하고 원활한 사용자 경험을 제공
• 지능형 문장 분리 최적화: 생성된 자막을 대형 언어 모델 기술을 활용하여 자동으로 최적화를 수행하여 읽기 쉽게 만듦
• 고품질 번역: 여러 언어의 자막 번역을 지원하며, 문맥을 반영한 지능형 번역을 통해 번역문이 정확하고 자연스럽도록 보장
• 다중 단말기 지원: 소프트웨어는 Windows 시스템에서 실행할 수 있으며, 고성능 GPU 없이도 사용 가능
• 일괄 처리 기능: 여러 비디오를 동시에 처리할 수 있어 작업 효율을 크게 높이고 시간을 절약
• 사용자 정의 자막 스타일: 다양한 자막 스타일 템플릿을 제공하며, 사용자가 필요에 따라 자막의 외관과 형식을 사용자 정의할 수 있음
VideoCaptioner 및 한국어 패치 다운로드
VideoCaptioner: 다운로드
VideoCaptioner 한국어 패치: 다운로드
VideoCaptioner으로 동영상 자막 제작
자막 생성 작업은 크게,
동영상 추가 ▶ 음성 전사(ASR) ▶ 자막 최적화 및 번역 ▶ 자막 영상 합성
을 거친다. 번역은 GPT API가 있어야 하는데, LM Studio 같은 오프라인 LLM 도구와도 연동될 것 같기도 한데, 잘 안된다.
VideoCaptioner 간단하게 살펴보기
VideoCaptioner는 인터페이스 언어로 영어를 지원하므로 사용하기에 큰 불편함은 없다. 그래도 (부분적으로나마) 한국어 인터페이스를 원하는 분은 위에서 한국어 언어팩을 내려받아 적용할 수 있다. 한국어 언어팩 적용 방법은,
\resource\translations
폴더에 한국어 언어팩을 영어 언어팩(VideoCaptioner_en_US.qm)에 덮어씌우고 언어를 영어로 설정하고 프로그램을 재시작하면 된다.
전사 모델은 B接口와 J接口 등 두 개의 중국산 온라인 모델과 Whisper 오프라인 모델을 지원한다. B와 J 중 J가 좀 더 인식률이 좋다. 하지만, 둘 다 아직 한국어와 일본어는 지원하지 않는다.
Whisper를 사용하려면, 모델 파일을 내려받아야 한다. 모델 파일명을 보면 알겠지만, VideoCaptioner는 「AI 기반 무료 동영상 자막 제작 | Whisper」에서 소개한 ‘WhisperDesktop’와 같은 Whisper.cpp 모델을 사용한다. 즉, AMD/INTEL 내장 GPU 가속을 지원한다는 것.
VideoCaptioner가 다른 자막 생성기와 다른 점은 사용자 정의 자막 스타일을 지원한다는 것. VideoCaptioner는 전사 작업 및 자막 최적화 작업이 완료되면, 최종적으로 ‘동영상 + 생성된 자막’ 작업을 거치는데, '자막 스타일'은 이때 적용된다.
긴 동영상 자막 생성하기 팁
AsrTools 도구를 테스트할 때는 안 그랬는데, VideoCaptioner 같은 경우 자막 생성이 10분 정도까지밖에 안 된다. 예를 들어, 40분짜리 동영상으로 작업을 시작하면, 생성된 자막은 10분 정도라는 것. 이 문제에 대해 깃허브에 문의했는데, 작업 폴더(work-dir)를 지우고 다시 해보라는 답변을 제외하고는 쓸만한 정보는 얻지 못했다. 이 답변에 미루어 보면 다른 사람은 10분 이상도 잘 되는 것 같다. 한마디로 나만 안 된다는 것?
일단 위와 같은 문제가 있을 때 10분 이상 영상의 자막 제작을 원하는 경우 MKVToolNix 도구로 동영상을 10분 간격으로 나눈다. 위 사진처럼,
분할 모드: 출력 재생 시간 이후
재생 시간: 00:10:00설정하고 [합치기 시작]을 클릭하면 10분 간격으로 동영상이 분할된다.
분할된 동영상을 VideoCaptioner [일괄 처리]로 자막을 생성한다.
작업 완료된 파일은 work-dir 폴더에 저장된다. SubtitleEdit 같은 자막 편집 프로그램으로 자막을 적당히 합쳐주면 된다.
B接口 중국어 음성 인식 테스트
위 동영상은 중국 드라마 「故乡的泥土(고향의 흙, 2024)」 시즌1 2편의 10분 정도를 B接口으로 자막 생성한 결과다.
하얀색 자막이 원본 자막이고, 녹색 자막이 B接口이 생성한 자막인데, AsrTools 테스트할 때보다 인식률이 향상된 걸 확인할 수 있었다.
비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요