2024/10/19

빠르고 사용하기 쉬운 무료 음성 인식 도구 | AsrTools

빠르고 사용하기 쉬운 무료 음성 인식 도구 | AsrTools

저사양에서도 빠른 자막 생성이 가능한 무료 ASR 도구

필자 같은 경우 대중화된 AI 기술 중 하나인 자동 음성 인식(Automatic Speech Recognition, ASR)을 동영상 자막을 생성하는 데 가끔 이용한다. 보통 Ryzen 내장 GPU를 지원하는 WhisperDesktop을 사용하지만, NVIDIA GPU 없는 저사양에서 드라마 한 편 이상의 분량의 자막을 ASR로 생성하려면 가혹한 시간이 요구된다.

그런데 AsrTools은 클라이언트 자원을 사용하지 않는 ‘서버 업로드’ 방식이라 30분 정도의 드라마 한 편의 자막을 생성하는 데 1분도 안 걸릴 정도로 매우 빠른 무료 ASR 도구이다. 즉, GPU가 없는 저사양에서도 ASR 기능을 사용할 수 있다는 말이다. 아마 현존하는 무료 온라인 ASR 도구 중 가장 빠르고, 또한 긴 영상도 지원하는 유일무이한 도구일 듯 싶다. 다만, 인식 언어로 중국어와 영어만 지원하는 것과 (빠른 인식 속도에서 예상할 수 있듯) 저조한 인식률이 다소 아쉽다.

보통 ‘ASR’하면 ‘Whisper’를 떠올리지만, Whisper는 수많은 ASR 모델 중 하나일 뿐이다. AsrTools은 Jianying(剪映), Kuaishou(快手), Bijian(必剪) 등의 중국산 ASR 모델을 사용한다.

AsrTools 기능

대형 플랫폼 인터페이스 호출: 리버스 엔지니어링과 패킷 캡처를 통해 여러 대형 플랫폼의 인터페이스를 지원합니다. 여기에는 Jianying(剪映), Kuaishou(快手), Bilibili(必剪)이 포함되며, 고품질 서비스를 무료로 즐길 수 있습니다.

복잡한 설정 불필요: GPU와 복잡한 로컬 설정이 필요 없으며, 초보자도 쉽게 사용할 수 있습니다.

고급 사용자 인터페이스: PyQt5와 qfluentwidgets를 기반으로 한 미려하고 사용자 친화적인 인터페이스를 제공합니다.

탁월한 효율성: 멀티 스레드 동시 작업과 일괄 처리 기능을 통해 번개처럼 빠른 텍스트 변환을 제공합니다.

다양한 형식 지원: .srt와 .txt 자막 파일 생성을 지원합니다.

Jianying 인터페이스: Jianying 소프트웨어의 자막 인식 인터페이스를 리버스 엔지니어링하여 공식 경험과 동일하며 안정적이고 신뢰할 수 있습니다.

AsrTools 다운로드

AsrTools 다운로드: github.com/WEIFENG2333/AsrTools/releases

AsrTools 사용하기

AsrTools 사용법

AsrTools 사용법은 매우 간단하다.

① 오디오/비디오 파일 선택(다중 선택 가능)
② ASR 모델 선택(현재 ‘B’와 ‘K’ 이용 가능)
③ ASR 작업 시작(개별 작업 시)
④ 다중 ASR 작업 시작(여러 개 작업 시)

현재 작동하는 모델은 ‘B’(빠르지만 인식률은 낮음, 30분 이상의 동영상 인식 가능)와 ‘K’(느리지만 인식률은 높음, 30분 이상의 동영상 인식 불가)이다.

아래 「AsrTools 테스트 2, 중국어」의 경우 ‘B’ 모델은 4초 정도, WhisperDesktop(Ryzen 3)은 2분 9초가 걸렸다. 테스트에 사용한 드라마 한 편(대락 34분)을 통째로 ‘B’ 모델로 ASR 작업하는데 1분도 안 걸렸다는 것!

‘K接口’ 모델을 사용하면 ‘B’보다 인식률은 높지만, 위 사진처럼 자막 싱크가 전혀 맞지 않는 문제가 있다

다만, ‘K接口’ 모델을 사용하면 ‘B接口’보다 인식률은 높지만, 위 사진처럼 자막 싱크가 전혀 맞지 않는 문제가 있다.

참고로 개발자에게 추후 업데이트로 한국어, 일본어 인식이 가능한지에 관해 문의해 본 결과 B, K 등의 중국산 모델이 애초 두 언어를 지원하지 않아 불가능하다는 답변을 받았다.

AsrTools 테스트 1, 영어

AsrTools 테스트 2, 중국어

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요