Search
Duplicate
👩‍💻

6월 이누쓰데이 ; 베일벗은 STT [24.6/Joy]

Created
2024/07/12 06:51
Tags
이누쓰데이
날짜
안녕하세요! Joy입니다.
오늘은 오랜만에 6월 이누쓰데이 리뷰를 해볼꺼에요~
이러한 행사를 진행할때 저희 이누씨에서 자주 이용하던
서울디자인주도 제조혁신센터(DK Studio)가 이전 했다고해서 이전 정보도 알려드려요.
주 소 : 서울특별시 금천구 디지털로 178 퍼블릭가산 C동 5층 운영시간 : 10:00 ~ 17:00 휴 무 : 매주 토요일, 매주 일요일
새로운 건물로 이전해서 그런지 더 깨끗하고 쾌적하더라구요
※ A,B,C,D.. 여러동이 있는데 찾기가 어려워서 많이 헤맸어요,, 처음가시는 분은 지하주차장을 통해 원하는 동으로 가시는걸 추천드려요! (지하주차장 모두 연결되어 있음)
도착해서 6월 이누쓰데이를 진행했어요~
이번 이누쓰데이의 주제는

SEDN + STT + 트랜스 코딩

SEDN에 새로운 기능을 소개하는 날이에요.

영상 속 음성 -> 자막으로 STT

STT란? Speech-to-Text의 약자로 음성 인식을 통해 음성을 텍스트로 변환하는 기술.

Transcoding (변환)

Transcoding이란? 미디어 파일을 한 형식에서 다른 형식으로 변환하는 과정.
[핵심]
업로드된 영상에서 오디오를 추출하고 Whisper를 사용하여 VTT 형식의 자막 파일로 변환
변환된 자막 파일을 VideoJS 웹 플레이어에서 사용, 관리자페이지에서 편집가능
대기열 관리는 queue 서버를 통해 관리
사용자의 네트워크 환경에 따라 장애없는 원활한 서비스 제공을 위해 트랜스코딩 기능 추가
이 네가지를 기억하시면 될것같아요.
오늘 시연은 Rick이 해주실거에요
우선 시연에 앞서 구성 및 과정 대한 설명을 해주었어요.
이후 STT 시연을 해주셨답니다. 자막 생성할 영상을 업로드 한 후 AI 자막추출을 진행합니다.
이렇게 음성이 VTT파일로 되어 불러와서 보여집니다.
각각 수정 가능하며, 수정을 다 하고 난 뒤에 저장을 하면
이렇게 자막이 보여지는데요 영상 속 말하는 사람의 발음이 좋을수록 자막의 정확도는 더 높아진다고 하네요. Jason의 음성이 자막과 거의 일치하는 것 보니 Jason 발음이 매우 정확한가봐요!
그렇담 트랜스코딩은~
업로드된 비디오 파일을 FFmpeg를 사용하여 HLS 파일(M3U8 및 TS 파일)을 생성하고, 생성된 HLS 파일을 VideoJS와 같은 웹 플레이어에 통합하여 사용자가 다양한 해상도로 비디오를 시청할 수 있도록 해요 (1080p, 720p, 360p 인코딩하여 다중 해상도 스트리밍을 제공)
STT와 트랜스코딩 모두 queue 서버에서 관리가 되며 작업이 순차적으로 처리되어, 과부하를 방지할 수 있습니다.
멋진 시연 준비해주신 Rick과 개발팀 모두 고생많으셨습니다~!
모두 열심히 해주셔서 SEDN의 편리한 기능이 날이 갈수록 늘어나네요
다음에는 또 어떤 새로운 기능으로 SEDN을 소개해드릴 수 있을지 벌써 기대됩니다!
지금까지 Joy 였습니다. 감사합니다.