SEDN v2에서 비디오 콘텐츠에 오디오파일(wav,mp3,,) 추출하여 자막(text) 으로 자동생성하는 Speech to the Text 기능을 제공합니다. 아래는 콘텐츠 등록과정에서 STT 기능을 활성화하고 추출된 자막을 보정하고 사용자서비스를 최종적으로 제공하는 프로세스를 설명하고 있습니다.
1.
SEDN 관리자페이지 ‘저장소’메뉴에서 [콘텐츠 등록] 버튼 클릭하고 콘텐츠 타입을 선택합니다. STT는 현재 VOD형태의 서비스에서만 제공하고 있습니다.
2.
등록할 비디오파일을 선택하고 콘텐츠제목, 설명, 저장할 폴더등을 입력한 후 AI 자막 추출 토글을 ON 해주세요. 이때 등록할 영상의 언어를 선택할수 있는데 미설정시 자동으로 설정됩니다.
3.
여기까지하고 저장을 누르면 콘텐츠 업로드 및 등록작업이 완료됩니다. STT 작업은 서버사이드에서 Seamless 진행되며 시스템의 GPU 성능에 따라 시간이 생각보다 오래걸릴수도 있습니다. (RTX4090기준 20분영상의 STT 생성은 약 2분정도 소요됨)
해당 비디오파일의 상세정보를 들어가보면 자막추출작업이 진행중인것을 알수 있다. 실시간진행율 표시토록 개발중
3.
저장을 누르고 나면 자동으로 자막추출작업이 진행되고 이미 등록된 콘텐츠라면 [콘텐츠 수정]에서 [자막] 탭을 클릭하여 수동으로 AI 자막 추출작업을 실행할 수 있습니다.
4.
자막추출 작업이 완료되면 자동으로 분류된 자막스크립트를 시작시간, 종료시간, 텍스트 순으로 확인할수 있습니다. 추출한내용의 오타가 없는지 휴먼검수를 진행할수 있으며 영상을 재생하면 자동으로 가운데 부분에 해당시간대 자막이 롤업(roll up) 되는것을 확인할수 있습니다.
5.
오타 발견시 직접 수정, 저장하는 편집기능을 지원합니다. 자막파일(vtt)은 별도로 다운로드할수 있으며 외부자막을 거꾸로 편집기를 통해 업로드할수도 있습니다.
자막생성된 콘텐츠의 게시, 스케줄배포 등 이후 프로세스는 일반 서비스 프로세스와 동일하다
화면 하단에 생성된 자막이 자동으로 표시되며 재생기 우측 설정에서 ON/OFF 자막노출여부를 제어할수 있다
Q1. 몇개언어를 지원하고 정확도는 어느정도인가요
영어, 중국어, 스페인어, 프랑스어, 독일어, 일본어, 한국어, 러시아어, 아랍어 등 100여개가 넘는 언어 지원하며 언어별 STT 정확도는 차이가 있으나 Medium model 기준 98% 내외로 별도 보정없이도 상용서비스 가능함
Q2. 자막생성 속도 (시간) 얼마나 되나요
GPU 성능에 따라 소요시간이 결정되며 일일 업로드되는 콘텐츠 수량에 따라 가이드를 드립니다. 가급적 GPU 장착된 서버시스템에서 동작을 권합니다.
(약 28분 영상 >>> 오디오추출 및 자막생성 소요시간 : 3’49” - GPU RTX4090기준)
Q3. 번역기능도 지원하나요
입력언어와 상관없이 영어로 바로 번역 출력을 제공합니다. 그외 다른 언어로 번역하고자 하는경우 별도의 번역모델을 연동하는 커스텀작업이 필요할것으로 예상하며 클라우드의 경우 보다 수월하게 실시간 연계될것입니다.