AI 동영상 자막 제막 및 번역 | Memo AI
OpenAI의 Whisper를 사용한 자막 생성 및 번역 도구
Memo AI는 동영상 및 오디오 파일의 음성을 텍스트 및 자막으로 추출해주는 프로그램이다. 얼마 전에 소개한 「AI 기반 무료 동영상 자막 제작 | Whisper」와 같은 Whisper AI 모델을 사용하므로 결과물 품질은 같다고 볼 수 있다. 다만, Memo AI는 다국어 인터페이스, 번역, 자막 편집, 다국어 자막 트랙, AI Prompts 사용자 정의 등 WhisperDesktop보다 더 많은 기능을 지원한다.
그런 만큼 유료화 예정인 프로그램이지만, 현재 내년까지 예정된 베타 테스트 참여자에게는 무료로 제공되고 있다. 고로 한 번쯤 사용해볼지어다.
Memo AI 주요 기능
다국어 지원: 중국어, 일본어, 영어, 한국어, 독일어, 프랑스어, 스페인어, 포르투갈어 등 90개 언어 변환을 지원합니다.
AI 요약: AI를 사용하여 성적표의 스마트 요약을 생성합니다
라이브 자막: 오디오가 재생될 때 실시간 자막을 표시합니다.
다양한 형식으로 내보내기: Markdown 텍스트, SRT 자막 형식 또는 Notion이 모두 지원됩니다.
GPU 가속 지원: GPU 가속을 사용할 수 있습니다.
플로팅 비디오 노트: 오디오가 재생되는 동안 주요 포인트를 부동 팝업 노트로 표시합니다.
AI 프롬프트 사용자 정의: 맞춤형 응답을 위해 AI 도우미 프롬프트를 사용자 정의하세요.
Memo AI 다운로드
공식 버전: https://memo.ac/releases.html
무설치 버전: Memo_1.x.x_win32_x64.7zmacOS 12.0 및 Windows 10 이상
Memo AI 베타 테스트 참여하기
Memo AI를 처음 실행하고 [early access]를 클릭하고, [Memo AI early access] 문서(테스트 참여 신청 문서)를 작성하면 이메일로 invitation code 5개를 보내준다.
업무 시간이라면 한두 시간 내로 초대 코드를 받을 수 있으며 내가 쓰고 남은 초대 코드는 다음과 같다.
ujwj-Cndb-yQCD-s3mo
idR9-FFh9-FCoM-Q2v8
MvtL-P7Da-uCoD-wUV4
PZKb-SsHN-3riD-Ebi8
Memo AI, 동영상 자막 추출하기
Memo AI로 동영상에서 자막을 추출하려면 일단 [설정] > [폴더 설정] 탭에서 AI 음성 모델을 받아야 한다. 오늘 테스트에선 Large(v2)와 Medium 모델을 사용했다. Large 모델이 파일 용량이 크고 작업 시간도 오래 걸리지만, 그만큼 음성 인식률이 높다.
참고로 Memo AI에서 사용하는 AI 모델 파일은 WhisperDesktop에서 사용하는 모델 파일과 같다. 고로 WhisperDesktop에서 사용하려고 받아 둔 파일이 있다면 그대로 사용해도 된다.
그다음 [설정] > [Lab] 탭에서 GPU 사용을 활성화해야 한다. Ryzen3 같은 내장 GPU도 지원된다.
이제 [설정]을 닫고 메인 화면으로 돌아와 [Memo] 탭에서 [로컬 미디어 선택]으로 작업할 영상을 불러온 다음 위 사진처럼 음성 인식에 사용할 AI 모델과 언어를 선택하고 [변환 확인]을 클릭하면 작업이 시작된다.
작업이 완료되면 SubtitleEdit 같은 자막 편집 화면이 보인다. [내보내기] 메뉴로 음성에서 추출한 텍스트를 srt, vtt, lrc, mt, txt, Notion 형식으로 저장할 수 있다.
번역 후에는 원본을 내보낼 것인지, 아니면 번역된 결과물을 내보낼 것인지, 아니면 ‘원본 + 번역 결과물’을 내보낼 것인지 선택할 수 있다.
작업이 완료된 동영상은 [Media] 탭에 등록되는데 여기서 [Subtitle editing] 메뉴를 사용하면 위처럼 자막 편집기를 사용할 수 있다.
WhisperDesktop, Memo AI 비교
테스트에 사용한 동영상은 KBS 드라마 「김 과장(Manager Kim)」 중에서 62초 분량이다.
같은 AI 모델을 사용해서 그런지 결과물 품질은 거의 차이가 없어 보이지만, Memo AI보다 WhisperDesktop이 작업 속도는 조금 더 빠르고 인식률도 조금 더 나아 보인다. 하지만, 보다시피 큰 차이라고 보기는 어렵고, Memo AI가 아직 베타인 점을 고려하면 더더욱 그렇다.
작업 시간은 아래와 같다(Ryzen3 5300U).
WhisperDesktop Large(v2): 1분 33초
Memo AI Large(v2): 1분 45초
Memo AI Medium: 54초
비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다
0 comments:
댓글 쓰기
댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요