2023/01/25

동영상 자체에 입혀져 있는 자막 추출하기 #3

동영상 자체에 입혀져 있는 자막 추출하기 #3

Extract hardcoded subtitles for free
<유료 자막 추출 도구인 TakeSub>

하드 코딩된 자막 추출에 대한 여러 방법

오늘은 동영상에 하드 코딩된 자막을 추출하는 방법 세 번째 편으로 역시 출처는 중국(출처: 硬字幕提取工具10.0教学)이다. 여기서 지금까지 내 블로그에 소개한 하드 코딩 자막(Hardcode Subtitles) 추출 프로그램을 간단하게 정리해 보면,

1. 「视频取字幕工具(Video subtitle tool)」: 무료이고 영어, 중국어, 일어 자막만 추출할 수 있다.
2. 「VideoSubFinder」: 유료 OCR 프로그램인 ABBYY FineReader가 필요하다는 단점이 있지만, ABBYY FineReader가 지원하는 다양한 언어의 하드 코딩 자막을 추출할 수 있다는 장점이 있다.
3. 「Video Subtitle Extractor」: 오늘 소개하는 것까지 포함해서 가장 쉬운 무료 하드 코딩 자막 추출 프로그램이다. 한국어 자막 추출도 가능하다. 하지만, 추출 시간이 가장 오래 걸린다.

이외에도 한국 사람이 제작한 것으로 여겨지는 ‘TakeSub‘라는 프로그램이 있지만, 이용하려면 회원 가입도 필요하고(휴대전화도 입력해야 함!), 자막 추출에 코인이 소모되는 유료 프로그램이다(아마도 유료 구글 API를 사용해서 그런 것 같다).

아무튼, 이럴 때만큼은 사회주의 국가의 남다른 공유 정신은 본받을만하다.

硬字幕提取工具10.0 다운로드

다운로드 링크 1(공유 암호: H3A8)
다운로드 링크 2(공유 암호: 1122)
다운로드 링크 3(공유 암호: 6pc5)

Extract hardcoded subtitles for free
<무료 자막 추출 도구인 Video Subtitle Extractor>

하드 코딩 자막 추출 프로그램 간단 비교(Ryzen 3 5300U)

작업 속도: 硬字幕提取工具 >= VideoSubFinder > TakeSub > Video Subtitle Extractor(accurate 모드)

결과물: TakeSub > 硬字幕提取工具 >= VideoSubFinder > Video Subtitle Extractor(accurate 모드)

사용성: TakeSub >= Video Subtitle Extractor > 硬字幕提取工具 > VideoSubFinder

硬字幕提取工具로 하드 코딩 자막 추출하기

Extract hardcoded subtitles for free

硬字幕提取工具를 사용하려면 무조건 VLC media player가 설치되어 있어야 하는데, 폴더 안에 VLC 설치 파일이 포함되어 있다. 기본 설치 경로로 설치해주면 된다.

VLC 설치 후 硬字幕提取工具10.0.exe를 실행하고(설치 경로는 영어로), 가장 먼저 [系統設置(System settings)]으로 들어가 OCR 엔진과 OCR 언어를 선택하자.

Baidu AI Cloud 같은 유료 OCR API 엔진도 등록해 사용할 수 있지만, 硬字幕提取工具 장점은 무료 OCR 오프라인 엔진을 지원한다는 것이다. 무료 OCR 오프라인 엔진 중 tr, paddle, easy, zsing을 사용할 수 있지만, 테스트 결과 paddle이 가장 낫다.

paddle을 선택하고 동영상에 입혀져 있는 자막 언어까지 선택했으면 [Save]하고 나오자.

Extract hardcoded subtitles for free

[VSF]를 클릭해 VideoSubFinder를 실행한다.

①: VideoSubFinder에서 동영상을 불러오는 방법엔 OpenCV, FFMPEG 두 방법이 있는데, OpenCV가 화질이 더 좋다.
②: 동영상 화면에서 캡처할 자막 부분을 세로 가로 막대를 사용해 조절한다.
③: [Run Search]를 클릭해 자막 부분을 스크린샷으로 캡처한다.

참고로 VideoSubFinder은 자막 부분 캡처 용도로만 사용한다.

Extract hardcoded subtitles for free

VideoSubFinder 작업이 끝나고 창을 닫으면 硬字幕提取工具는 자동으로 캡처한 이미지를 불러온다. 만약 이미지를 불러오지 않는다면, [Browse] 버튼을 클릭해 VideoSubFinder 폴더 아래에 있는 RGBImages 폴더를 지정해준다.

참고로 VideoSubFinder 폴더 아래엔 RGBImages, ILAImages, ISAImages, TXTImages(최종) 폴더에 각각 이미지가 저장되어 있는데, 硬字幕提取工具는 이 중에서 원본인 RGBImages를 사용한다. 왜냐하면, VideoSubFinder의 이미지 보정 효과가 완벽하진 않기 때문이다(TXTImages 폴더 안의 이미지를 확인하면 알 수 있다).

이미지 불러오기를 성공했다면, [去OCR(Go to OCR)]로 이동하자.

Extract hardcoded subtitles for free

[OCR]을 클릭해 OCR 작업을 진행하자.

OCR 작업이 끝나면 [生成SRT(Generate SRT)]를 클릭해 SRT 자막을 완성할 수 있고, SRT 파일은 RGBImages 폴더 안에 저장된다.

기타 자세한 사용법은 硬字幕提取工具10.0 用户使用手册.docx 문서를 참고하면 된다.

자막 추출 테스트 결과물 비교

압축 암호: singingdalong
자막 추출 테스트 결과물 다운로드
(硬字幕提取工具, TakeSub, Video Subtitle Extractor)

만약 사용 도중 실행이 안 된다면, config.ini를 삭제하고 설정값을 초기화하거나 VideoSubFinder에서 [Clear Folders]를 클릭해 저장된 이미지를 삭제하자

마무리

硬字幕提取工具(Hard subtitle extraction tool)는 지금까지 소개한 하드 코딩 자막 추출 프로글램 중 용량이 가장 큰(11GB) 프로그램이다. 왜냐하면, 오프라인 OCR 엔진이 탑재되어 있기 때문이다(바이두 같은 온라인 OCR 엔진도 사용할 수 있지만, API가 필요하다).

硬字幕提取工具의 자막 추출 방식을 대충 요약하면, VideoSubFinder로 동영상의 자막 부분만 이미지로 캡처한 다음 이 이미지들을 텍스트로 변환한 다음 SRT로 저장하는 방식인데, ABBYY FineReader를 사용할 수 없다는 점이 다소 아쉽다. 그랬더라면 더 좋은 결과물을 얻을 수 있을 것이다.

아쉽게도 실력이 부족해 한국어로 지역화하지는 못했지만, 생각만큼 사용법이 어렵지 않으니 재미 삼아라도 익혀두면 훗날 요기하게 써먹을 날이 올 것이다.

끝으로 TakeSub은 구글 API를 사용해서 그런지 오늘 언급한 자막 추출 도구 중 결과물이 가장 좋다(OCR 품질). 다만, 이용하려면 돈을 지급해야 하는 점이 아쉬운데, 硬字幕提取工具처럼 무료 OCR 오프라인 엔진을 지원하면 좋을 것 같다.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요