본문 바로가기
사랑방/대학생기자단

유튜브 자동 자막 기능 파헤치기 - 김연우, 양다연, 이연수 기자

by 한글문화연대 2022. 8. 29.

한글문화연대 대학생 기자단 9기 김연우 기자

yourkyw@naver.com

한글문화연대 대학생 기자단 9기 양다연 기자

ydy0828@naver.com

한글문화연대 대학생 기자단 9기 이연수 기자

dldustn2001@naver.com

 

 

 

유튜브 영상을 시청하며 한 번이라도 자동 자막 기능을 사용해봤다면 아마도 그 원리가 궁금했을 것이다. 소리를 끄고 영상을 시청하거나 외국 영상을 시청할 때 유용할뿐더러, 특히 청각장애인에게 유튜브 자동 자막 기능은 영상 시청이 한결 수월해질 수 있도록 도움을 준다.

유튜브 자동 자막은 어떤 원리로 생성될까. 유튜브에 영상을 올리면, 구글의 음성 인식 기술이 적용돼 영상 속 음성을 자동으로 문자화하여 영어 자막이 생성된다. 이후 구글의 인공지능을 이용한 최신 번역 기술을 통해 한국어 자막이 제공되는 원리다. 이때, 음성 인식 기술이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 정보로 전환하는 것을 의미한다. 도입 당시에는 서비스에 부족한 점이 많았지만 기계 학습을 통해 오류를 수정하여 정확도가 초반보다 50%나 증가했다. 기계 학습은 작업을 반복 수행함으로써 기계가 스스로 학습하게 하는 것이다.

유튜브는 2009년부터 현재까지 14년간 자동 자막 기능을 제공하고 있다. 2017년 유튜브 공식 블로그에 따르면 동영상 음성이 바로 자막으로 입혀지는 영상이 10억 개를 넘었다고 하니, 현재 그 수는 더 증가했을 것으로 보인다. 기술이 도입됐을 당시에는 영어만을 대상으로 했지만, 현재는 한국어를 포함해 14개 언어로까지 그 지원 폭이 넓어졌다. 그러나 게시된 영상이 아닌 실시간 생방송 영상의 자동 자막은 현재도 영어 영상만을 대상으로 지원된다. 또 구독자가 1,000명이 넘는 계정의 영상만을 대상으로 제공되어 모든 영상에 자동 자막이 적용되지는 않는다. 구글은 모든 유튜브 영상에 자동 자막을 제공하는 것에 목표를 두고 있다.

한편, 유튜브 자동 자막은 유용하지만 오류도 많아 대게 사용하지 않는다는 반응도 있다. 현시점에서 한국어 자막 기준 유튜브 자동 자막 기능의 정확도는 어느 정도인지 파악하기 위해 직접 한글문화연대 유튜브 영상 자막을 분석해 보았다.

한글문화연대 유튜브 영상 인터넷 주소 : https://youtu.be/figqx9VVLBI

먼저 ‘[쉬운 우리말] 주거 문화와 관련된 우리말을 제목으로 하는 영상 속 자막을 분석했다. 이 영상은 주거 문화와 관련한 어려운 외래 용어 대신 쉬운 우리말을 소개하는 내용을 담고 있다. 문화체육관광부와 국립국어원에서 선정한 다듬은 말이 많이 등장하기 때문에 유튜브가 인식하기에 어려운 말이 많다는 게 특징이다.

 

다음 표는 해당 영상에 등장하는 자동 자막의 오류 모음이다. 아래의 예시에서 현재 유튜브 자동 자막 기능의 특징과 완성도를 평가해 볼 수 있었다.

영상 속 말 자막 영상 속 말 자막
잠깐 잠깐, 첨단, 참판 누리소통망 놀이소통망
집 근처 집 근처, 직선 쳐 되었습니다 되었읍니다
집콕이 지코 기, 지코 b 근거리 휴가 근거리 혀가
집놀이족 집 머리 줘 외국어 대신 레코드 신

 

가장 직관적으로 느낀 부분은 바로 영상의 일정한 맥락 속에서 자막의 일관성이 없다는 점이다. ‘잠깐143초 분량의 영상에서 계속 같은 사람이 말하는데도 잠깐’, ‘첨단’, ‘참판으로 다 다르게 인식했고 집 근처도 각각 다른 말로 자막이 생성되었다. ‘집콕은 집에 콕 박혀서 지낸다는 의미의 신조어로 유튜브가 단어를 제대로 인식하지 못해 연음으로 자막이 처리되었다. 집에서 놀이를 즐기며 휴식을 취하는 사람을 칭하는 집놀이족역시 신조어로 유튜브가 의미를 정확하게 파악하지 못했다.

 

유튜브 자동 자막은 순우리말이나 한국어 맞춤법에도 취약하다. ‘세상을 뜻하는 순우리말 누리놀이로 착각하고 현행 맞춤법상 습니다로 표기해야 하는 것도 읍니다로 표기한 모습을 볼 수 있다. 그 외에도 휴가혀가라고 인식하는 단순 발음 인식 오류가 있었고 외국어 대신레코드 신으로 알아듣는 생뚱맞은 오류도 있었다.

 

반면에 외래어나 외국어인 인터넷’, ‘스테이케이션’, ‘홈코노미등은 오류 없이 인식하는 현상도 찾아볼 수 있었다. 이 영상의 핵심인 공공언어는 쉬운 우리말로!’조차 공고 마나는 쉬운 펄이 말로로 처리하는 유튜브 자동 자막의 한국어 부분은 여전히 가야 할 길이 멀어 보인다. 특히 아직 영상 내용의 맥락을 파악해 유사한 발음을 가진 단어들 사이에서 정확한 단어를 가려내는 능력이 부족한 것 같다.

 
한글문화연대 유튜브 영상 인터넷 주소 : https://www.youtube.com/watch?v=OyLmQYf8zC4

다음 영상은 2021년에 외국어 남용에 불편했던 이야기 공모전에서 북돋움상을 수상한 부장님 쉬운 길이 있는데, 왜 그 길을 가시나이까?’. 영상에는 한국어 이외에도 영어, 일본어, 그리고 스페인어가 나오기 때문에 외국어를 어떻게 한글 자막으로 나타내는가를 확인할 수 있었다. 영상 속의 외국어와 해당 단어의 한글 자막을 표로 나타내면 다음과 같다.

 

영상 속 말 자막 영상 속 말 자막
Hola(올라) 몰라 Develop(디벨롭) 기다려
Talk time(토크 타임) 토크 타임 Goal() 9
Opinion(오피니언) 오피니언 くせ(쿠세) 코스
Quality(퀄리티) 퀄리티 がんばれ(간바레) 단발을
Less(레스) 횟수

 

영어, 일본어, 스페인어는 영상에서 각각 여섯 번, 두 번, 한 번 사용되었다. 유튜브에서 가장 활발하게 자막을 지원하는 언어가 영어인만큼 영어 단어의 한글 자막 정확도는 50%로 가장 높았다. 일본어와 스페인어 단어의 경우, ‘올라몰라, ‘쿠세코스로 나타내는 등 실제 발음과 비슷한 발음의 한국어 단어를 자막으로 나타냈다는 것을 확인할 수 있었다. 하지만 비교적 정확도가 높았던 영어에 비하면 타 외국어는 영어만큼 정확한 자막을 나타내는 데에 한계가 있었다. 이는 첫째 영상과 마찬가지로 영상의 맥락을 파악해 자막을 나타내는 기능에 발전이 필요함을 보여주는 예시다. 특히나 이번 영상처럼 다양한 언어가 동시에 등장하는 경우, 맥락을 파악하기 위해서는 우선 외국어 단어의 의미를 아는 것이 선행되어야 한다. 따라서 다언어가 사용되는 영상의 자막 정확도를 높이기 위해 기계 학습 과정에 다양한 언어의 학습이 추가될 필요성이 있다고 느꼈다.

 

반면 한국어 단어의 자막 오류는 손대리손들이’, ‘되고들고’, ‘유식해의식해라고 하는 세 가지뿐이었다. 한국어가 훨씬 많이 사용된 영상에서 외국어보다 오류가 적게 발생한 이유는 해당 영상의 한국어 음성이 기계음이었기 때문일 것으로 추정한다. 실제 사람의 음성은 기계가 학습한 표준발음법에 어긋나는 경우가 많지만 기계음은 규정에 따라 정확한 발음을 준수하기 때문에 비교적 정확도가 높았던 것이다.

 

유튜브 자동 자막 기능은 영상 제작자가 자막을 따로 삽입하지 않아도 시청자에게 편의를 제공한다는 명확한 장점이 있다. 덕분에 청각장애인은 물론 비장애인이 외국 영상을 시청할 때 큰 도움이 된다. 한국어로 된 영상이라도 내용을 정확히 파악하기 위해 자막과 함께 보려는 시청자도 존재한다. 이러한 이유로 유튜브의 자동 자막은 계속해서 수요가 있을 것이다.

 

하지만 직접 유튜브의 한국어 영상 자막을 분석해보니 아직 영어에 비해 부정확한 부분이 많다는 사실을 알 수 있었다. 한국어의 경우 단어 면에서도 인식이 덜 된 느낌이고 맞춤법 이해도도 낮은 편이다. 또 그렇기에 전체적인 영상 내용의 맥락도 잘 파악하는 것 같지 않다. 유튜브가 사용하는 자체 자동 자막인 씨씨(CC) 자막에 대해 자세한 기술을 공개하고 있지는 않지만, 기계 학습 원리가 적용된 것으로 보아 아직 한국어보다는 영어를 많이 학습시켰기에 이러한 결과가 나오는 것으로 추측할 수 있다. 물론 현재의 기술도 예전에는 상상할 수 없었을 만큼 발전했지만, 한국어 자동 자막의 정확도는 아직 사람을 대체할 정도로 완벽하지는 않다고 평가할 수 있다. 이는 자동 자막의 한국어 학습량을 꾸준히 늘려나가면서 해결할 수 있을 것이다.

 

 

 

댓글