👩‍💻

6월 이누쓰데이 ; 베일벗은 STT [24.6/Joy]

Created

2024/07/12 06:51

SEDN + STT + 트랜스 코딩

SEDN에 새로운 기능을 소개하는 날이에요.

영상 속 음성 -> 자막으로 STT

STT란? Speech-to-Text의 약자로 음성 인식을 통해 음성을 텍스트로 변환하는 기술.

Transcoding (변환)

Transcoding이란? 미디어 파일을 한 형식에서 다른 형식으로 변환하는 과정.

[핵심]

•

업로드된 영상에서 오디오를 추출하고 Whisper를 사용하여 VTT 형식의 자막 파일로 변환

•

변환된 자막 파일을 VideoJS 웹 플레이어에서 사용, 관리자페이지에서 편집가능

•

대기열 관리는 queue 서버를 통해 관리

•

사용자의 네트워크 환경에 따라 장애없는 원활한 서비스 제공을 위해 트랜스코딩 기능 추가

이 네가지를 기억하시면 될것같아요.

오늘 시연은 Rick이 해주실거에요

우선 시연에 앞서 구성 및 과정 대한 설명을 해주었어요.

이후 STT 시연을 해주셨답니다. 자막 생성할 영상을 업로드 한 후 AI 자막추출을 진행합니다.

짠 이렇게 음성이 VTT파일로 되어 불러와서 보여집니다.

각각 수정 가능하며, 수정을 다 하고 난 뒤에 저장을 하면

이렇게 자막이 보여지는데요 영상 속 말하는 사람의 발음이 좋을수록 자막의 정확도는 더 높아진다고 하네요. Jason의 음성이 자막과 거의 일치하는 것 보니 Jason 발음이 매우 정확한가봐요!

그렇담 트랜스코딩은~

업로드된 비디오 파일을 FFmpeg를 사용하여 HLS 파일(M3U8 및 TS 파일)을 생성하고, 생성된 HLS 파일을 VideoJS와 같은 웹 플레이어에 통합하여 사용자가 다양한 해상도로 비디오를 시청할 수 있도록 해요 (1080p, 720p, 360p 인코딩하여 다중 해상도 스트리밍을 제공)

STT와 트랜스코딩 모두 queue 서버에서 관리가 되며 작업이 순차적으로 처리되어, 과부하를 방지할 수 있습니다.

멋진 시연 준비해주신 Rick과 개발팀 모두 고생많으셨습니다~!

모두 열심히 해주셔서 SEDN의 편리한 기능이 날이 갈수록 늘어나네요

다음에는 또 어떤 새로운 기능으로 SEDN을 소개해드릴 수 있을지 벌써 기대됩니다!

지금까지 Joy 였습니다. 감사합니다.