2025/06/25

, , ,

자작 9탄, AMD INTEL 내장 그래픽 사용자를 위한 'Whisper 일괄 변환기’

모두를 위한 Whisper GPU 가속

Whisper 일괄 변환기 메인 화면

바야흐로 사용자가 직접 동영상/음성을 텍스트 자막으로 변환 후 제미나이 같은 AI로 번역해서 감상하는 ASR AI 번역 시대. 하지만, AMD, INTEL 내장 그래픽 사용자를 위한 Whisper ASR 도구는 WhisperDesktop 정도가 있는데, 1시간 이상, 혹은 2시간 이상 넘는 긴 음성으로 전사 작업을 진행하면 중간 이후 전사 작업이 제대로 안 되는 문제가 있다. 이 문제는 음성 파일을 30분~60분씩 나눠서 하면 좀 나아지는 데 문제는 WhisperDesktop 경우 일괄 작업을 지원하지 않는다는 것. 머리를 좀 굴려봤더니 나름의 해결책을 발견했다. 바로 Microsoft의 DirectML(Direct Machine Learning) 기술을 사용하는 명령 프롬프트 기반의 Const-me Whisper를 이용하는 것(WhisperDesktop도 Const-me Whisper 사용).

그래서 이번엔 AI 코딩 자작 9탄으로 Whisper 일괄 변환기(Whisper Batch Transcriber)를 만들어봤다. 내장 그래픽 같은 저사양 사용자는 구글 Colab을 활용하는 것도 좋지만, 오프라인 작업이 필요할 때가 있는데, 그럴 때 사용하면 될 것이다.

참고로 모든 내장 GPU를 지원하는 것은 아니고, Ryzen 내장 그래픽과 Intel 내장 그래픽(Iris Xe, UHD Graphics) 등에서 DirectX 12를 지원하는 제품만 GPU 가속을 사용할 수 있다.

주요 기능

  • 직관적인 GUI: 클릭과 드래그 앤드 드롭만으로 모든 작업 가능
  • 강력한 일괄 처리: 수십 개 파일도 등록만 해두면 자동으로 변환
  • 안전한 작업 제어: 변환 중 일시 중지, 다시 시작, 중지 기능
  • 예상 시간 표시: 언제쯤 작업이 끝날지 예측 가능
  • 다양한 옵션: 사용자 옵션 지원
  • 자동 종료 기능: 작업이 끝나면 PC가 알아서 꺼지도록 설정 가능

Whisper 일괄 변환기 준비물

Const-me Whisper: cli.zip ⬅ 이 파일 다운로드

모델: ggml-large-v2.bin(혹은 기타 ggml-xxxx-bin 모델 파일)

Whisper 일괄 변환기: 테라 링크 / 픽팍 링크


자작 AI 코딩 시리즈

사용법 (Step-by-Step)

Whisper 일괄 변환기 사용법

1. 사전 준비(가장 중요!): 이 앱은 핵심 엔진인 main.exe와 함께 작동한다. 고로 앱이 있는 폴더에 main.exe, Whisper.dll 파일이 같이 있어야 한다. 두 파일은 위의 Const-me Whisper 링크에서 받은 cli.zip 압축 파일 안에 있다. 모델 파일 역시 huggingface에서 별도로 받아야 한다(ggml 포맷의 모델 파일 .bin).

2. 앱 실행 및 설정: 앱 실행 후 모델 파일 및 음성 언어 선택(필요하면 고급 옵션 설정). 그리고 처리 대기열에 오디오 파일 추가 후 [변환 시작]을 클릭하면 전사 작업이 시작된다.

3. 작업이 완료되면 오디오 파일 위치에 .srt 자막 파일이 생성된다.

주의 사항 및 팁

Whisper 일괄 변환기 작업 완료 화면
  • GPU 가속에 대하여: GPU 가속을 원활하게 사용하려면 그래픽 드라이버를 최신 버전으로 업데이트하는 것을 권장
  • 폴더 구조: Whisper 일괄 변환기 앱과 main.exe가 반드시 같은 폴더에 있어야 함
  • 오류 발생 시: '실시간 로그' 창의 내용을 확인하거나, 프로그램 폴더에 생성된 debug.log 파일 확인
  • 최초 전사 결과: 오디오 길이가 한 시간 이상 넘어가면 [실시간 로그] 창에 첫 전사 결과가 표시되기까지 (Ryzen 3의 경우) 10분 이상 소요될 수 있다. 인내심을 갖고 기다리자

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요