2021/08/10

동영상 음성/자막 인식 및 번역을 한방에

동영상 음성/자막 인식 및 번역을 한방에 | Yukarinette Connector

Video voice/subtitle recognition and translation at once | Yukarinette Connector
<앞으로 자막 때문에 감상을 포기하는 일은 없을지도...>

ゆかりねっとコネクター(取説)

Yukarinette Connector는 음성 인식 • OCR • 번역 등의 인공지능 기술을 응용해 동영상의 음성을 실시간으로 텍스트로 변환하고 번역하며 사용자가 원하면 음성으로 읽어주기까지 하는, 한마디로 동시통역을 구현한 놀라운 무료 프로그램이다. 다만, 설정 방법이 다소 복잡해서 그런지, 아니면 내가 잘 다루지 못해 그런지 음성 인식 성능이 생각보다 다소 아쉽다는 것이 흠이라면 흠이랄까?

아래 동영상으로 간신히 시현한 기능 (음성 인식과 번역) 외에는 뭘 어떻게 설정해야 더 좋은지 등 당최 뭐가 뭔지 모르겠지만, 이 방면에 관심을 가진 사용자에겐 Yukarinette Connector만 한 동영상 동시통역 프로그램은 없을 것 같다. 또한, 앞으로 음성 인식/번역 등의 인공지능 성능이 더 좋아진다면 보고 싶은 영화나 드라마를 자막 때문에 포기해야 하는 한스러운 일도 더는 없을 것 같다.

• Yukarinette Connector 받기: https://www.machanbazaar.com/download_ync/

• 필요 사항: Net v4.7Microsoft Visual C++ 2015 재배포 가능 패키지

Yukarinette Connector로 할 수 있는 일(원본 보기)

• 유카리넷에서 인식된 단어의 번역을 표시하고 합성할 수 있습니다.

• 자신의 음성으로 방송하면 UD토크와 연결망 연결 단자로만 자막 합성이 가능합니다!

• 음성 인식 엔진을 UDtalk (AmiVoice Cloud)로 변경할 수 있습니다(물론 유카리넷을 통해서도 표준 구글 인식 엔진을 사용할 수 있습니다).

• machan과 함께 사용하면 속기 데이터를 가져올 수도 있습니다.

• 자막으로 인식된 데이터는 비디오 편집 소프트웨어로 가져올 수 있습니다.

• Yukari-nette의 로그에서 음성 인식 로그를 꺼내 자막 생성에 사용할 수 있습니다.

• 배포 소프트웨어 OBS에 자막을 직접 넣을 수 있으므로 아름답게 전달할 수 있습니다.

Yukarinette Connector 테스트 동영상

Yukarinette Connector로 음성 텍스트 변환 및 번역

Video voice/subtitle recognition and translation at once | Yukarinette Connector
Video voice/subtitle recognition and translation at once | Yukarinette Connector

① Yukarinette Connector 대략적인 흐름은 위 동영상을 참고하고, 우선 [Connect] >> [Chrome Path]에서 Chrome.exe이 설치된 경로를 설정해야 한다.

② [Connect]에서 [Chrome Recognition] 체크하고,

③ 인식할 음성 언어 선택하고,

④ [Chrome Speech to text]를 클릭하면,

⑤ Yukarinette Connector 창이 새로 열린다. 이제 동영상을 재생하면 Yukarinette Connector가 음성을 텍스트로 변환해준다. 이렇게 변환된 텍스트를 번역하고 싶다면,

Video voice/subtitle recognition and translation at once | Yukarinette Connector
Video voice/subtitle recognition and translation at once | Yukarinette Connector

① [Welcome] >> [How to use]에서 [as Quickly]를 선택하고,

② 번역할 언어 선택하고,

③ [List]를 클릭하면,

④ 번역 결과를 표시하는 창이 새로 열린다.

끝으로 몇 마디 덧붙이면, 처음 사용할 때 마이크 접근 권한을 요구하는 것을 보면 동영상 소스에서 음성을 불러들이는 것이 아니라 PC 스피커로 출력되는 소리를 PC 마이크로 인식하는 듯하다. 그래서 스피커 볼륨을 높여야 인식률이 높다. 그렇다면 성능 좋은 마이크를 사용한다면 좀 더 인식률을 높일 수 있을 것이고, 당연한 이야기지만 유료 번역 API를 사용하면 더 빠르고 인식 성능도 좋다고 한다. 동영상에 입혀진 자막도 인식이 가능하다고 하는데, 방법이 쉽지 않아 보여 테스트하지는 못했다.

비록 보잘 것 없지만 광고 수익(Ad revenue)은 블로거의 콘텐츠 창작 의욕을 북돋우는 강장제이자 때론 하루하루를 이어주는 즐거움입니다

Share:

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요