497__클로바노트 언어번역 메타버스
- 뚱보강사
- 2022.04.25 17:05
- 조회 141
- 추천 1
=
497__클로바노트 언어번역 메타버스-빌더봇---12ok
뚱보강사 이기성
497__ 클로바노트 언어번역 메타버스
네이버 '클로바노트'... "요약·번역 기능까지"... ‘네이버 클로바(CLOVA AI)’는 독자적으로 개발한 AI 기술을 통해 세상에 없던 새로운 기술, 서비스, 제품을 만들고 있다... ‘네이버 클로바’는 네이버, 라인의 풍부한 데이터와 세계 최고 수준의 AI 기술이 만나 전에 없던 시너지를 창출한다... [블로터]의 황금빛 기자가 네이버의 AI(인공지능) 음성기록 서비스 ‘클로바노트’를 소개한다(2022-03-12). 지난달 24일 ‘네이버 클로바’ 스피치 팀 한익상 책임리더·이찬규 리더를 온라인으로 만나 클로바노트만의 기술 경쟁력, 앞으로의 계획 등에 대해 들었다. ‘회의록 요약과 실시간 변환·번역’은 네이버의 AI 음성기록 서비스 ‘클로바노트’가 추가하려는 기능이다.
‘클로바노트’는 회의·인터뷰·강의 등 다양한 상황에서 녹음한 대화를 텍스트로 변환해줘서 많은 이용자들이 유용하게 쓰고 있는 서비스다. 2020년 11월 서비스를 처음 선보였는데, 1년 만에(지난해 11월) 가입자 수 100만 명을 돌파했다. --- 한익상: 음성 녹음을 음성인식 기능을 활용해 텍스트로 출력하고, 원하는 데를 클릭하면 다시 들을 수 있게 하는 기능으로 시작했다. 딥러닝 기술을 기본적으로 쓰고 있는데, 2년 전부터 ‘빅모델(초대규모 AI·초거대 언어모델)’을 만드는 기법이 개발되어, 인식률이 많이 올라갔다. 그 전까지는 단문 발화, 음성 명령 정도만 됐다. --- 이찬규: 클로바노트에 적용한 빅모델은 모델 자체도 훨씬 더 커졌고, 모델을 학습할 때 텍스트 없이 음성 파일만 가지고 있어도 된다. ‘프리 트레인드 모델(PRE-TRAINED MODEL)’이라는 것을 만들 수 있어서다. 빅모델은 내부에 작은 두 개의 모델이 존재한다. 하나가 프리 트레인드 모델, 다른 하나가 ‘파인튜닝(Fine-tuning)’. 파인튜닝은 전사한 스크립트가 더해져 좀 더 잘 튜닝되는 단계다.
--- 한익상: 클로바노트에는 크게 두 가지 기술이 있다. 우선적으로 적용된 건 음성인식하고 화자인식. 화자인식은 정확히 누가 무슨 말을 했는지 화자를 구분해 주는 기술이다. 그동안 화자인증이라고 해서 이 말을 한 사람이 당신인지, 나인지 아닌지를 맞춰주는 것에 포커싱 돼 있었다. 예전에 네이버클로바 ‘스피커 프렌즈’라고 AI(인공지능) 스피커 서비스가 있었다. 특히 일본에 출시한 건 음성 메시지를 보낼 때, 이게 그 주인이 말한 것인지 반드시 확인해야 하는 조건이 있었다. 그런데 클로바노트 같은 경우 누구인지 인증하는 것이 아니라, 화자별로 구분하는 것이 필요하다보니 관련 기술을 개발해 클로바노트에 처음 적용한 거다. 화자인식 기술 연구자들에게 큰 동기부여가 된 서비스다. 물론 음성인식 기술과 함께 빛을 볼 수 있었고.
--- 이찬규: 두 개 국어로 회의를 하는 사람들이 많았다. 그런데 한국어랑 영어가 혼용되는 경우 현재 어떤 인식기로도 스크립트를 만들 수가 없더라. 그래서 한국어랑 영어를 동시에 인식할 수 있는 모델을 새롭게 개발했다. --- 한익상: 하이퍼클로바라는 거대 언어모델을 활용해 요약을 한다거나, 문장을 좀 깔끔하게 정리해준다거나 하는 등의 기술이 가능하다.
페북, 언어장벽 없는 메타버스
페이스북의 마크 저커버그가 인류를 가로막고 있는 언어장벽을 허물어버리겠다고 선언했다. 언어장벽 없는 메타버스 만든다... "모든 음성언어 실시간 번역"… 원하는 환경은 빌더봇으로 구축... 전 세계 모든 언어를 실시간으로 번역해주는 시스템을 구축해서 자유롭게 소통하도록 하겠다는 것이다. [ZDNet] 김익현 미디어연구소장이 보도했다(2022-02-24).
마크 저커버그 메타 최고경영자(CEO)는 2월 23일(현지시간) 온라인으로 열린 ‘인사이드 더 랩(Inside the Lab)’ 행사에서 '범용 음성 인공지능(AI) 번역 시스템’ 개발 계획을 공개했다. “메타버스에서는 오늘날 가능한 것과는 차원이 다른 경험을 하게 된다. 이를 위해선 하드웨어 기기부터 소프트웨어까지 모든 분야가 발전해야만 한다”면서 “이런 발전에서 핵심적인 분야는 AI이다”라고 강조했다.
--- AI음성 비서 성능 확충 → 음성언어 실시간 번역 목표 제시... 방대한 계획의 출발점은 ‘카이라오케(CAIRaoke) 프로젝트’다. ‘자기 지도 학습(self-supervised learning)’ 모델인 카이라오케는 인공지능(AI) 음성 비서의 소통 능력을 획기적으로 개선시키는 데 초점을 맞추고 있다. 단순한 질의응답 수준을 뛰어넘어, 분위기에 맞게 맥락적인 대화를 할 수 있는 수준까지 끌어올리겠다는 것이다.
카이라오케 프로젝트
--- 메타의 카이라오케 프로젝트... 첫 단계 ‘카이라오케 프로젝트’는 AI 비서가 사람간의 대화에서 시선, 얼굴 표정, 손동작 같은 정보까지 이해한 뒤 좀 더 맥락적인 대화까지 처리하도록 한다는 계획이다. 여기서 중요한 역할을 하는 것이 '자기 지도 학습’ 방법이다. 그 동안 나온 음성 비서들을 방대한 데이터를 토대로 언어를 익히는 방식을 택했다. 하지만 메타의 ‘카이라오케 프로젝트’는 흩어져 있는 정보 조각들을 결합해 자기 주도적으로 학습한 뒤, 전체 대화를 익히는 능력을 갖도록 하는 데 초점을 맞추고 있다.
--- 다음 단계가 모든 언어를 실시간으로 통역해주는 두 단계 프로젝트다... ①첫 번째는 ‘모든 언어 포괄(No Language Left Behind)’ 계획이다. 영어, 중국어처럼 많은 사람들이 사용하는 언어 뿐 아니라 아스투리아스, 루간다, 우르두어처럼 상대적으로 이용자가 적은 언어도 번역할 수 있도록 한다는 계획이다. 메타는 “현재 상용화돼 있는 번역 기술은 전 세계 인구 20% 가량이 사용하는 언어는 처리하지 못한다"고 지적했다. 메타는 데이터 부족 문제를 해결할 수 있는 AI 번역 기술을 개발하겠다는 것으로, 해결하기 위해 마련한 것이 레이저(LASER) 기술이다. 오픈소스 툴킷인 레이저는 28개 문서에 사용된 125개 이상의 언어 데이터를 수집 분석하고 있다.
현재의 기계번역은 ‘두 언어 간 번역(bilingual translation)’ 방식을 주로 사용해 왔다. '영어 →스페인어', '독일어→ 영어' 같은 번역 방식이다. 대부분의 기계번역은 영어를 중심으로 번역망을 구축해 왔다. 그런데 메타는 “최초로 영어가 중심이 되지 않은 다중언어 텍스트 번역 시스템을 만들었다"고 주장했다. 이를 통해 전 세계 101개 언어를 포괄한다는 계획이다.
②다음 단계가 ‘범용 음성 인공지능 번역 시스템’이다. 음성 언어를 실시간으로 번역하는 것은 글자를 번역하는 것보다 훨씬 더 어렵기 때문이다. 두 사람의 대화를 동시통역할 때는 문자 번역 때와 달리 '시간 지연’을 최소화해야 하기 때문이다. 아주 숙달된 인간 통역사들도 서로 다른 언어를 번역할 때 일반적으로 3초 정도 시간차가 생긴다. 서로 다른 언어들은 주어, 동사 등의 배치 순서가 다르기 때문에 생기는 어쩔 수 없는 한계다.
메타는 이 문제를 해결하기 위해 문자 번역에 사용된 레이저 기술을 음성언어 쪽으로 확대 적용하고 있다. 이미 영어를 비롯해 프랑스어, 독일어, 스페인어 등에선 1천 400시간 분량의 음성 언어 번역 데이터를 확보했다고 메타 측이 밝혔다. 궁극적인 목표는 음성 언어를 단순 번역하는 수준에서 더 나아가, 모든 사람들의 표현과 성격을 그대로 살리기 위해 음성 번역 때 억양 같은 요소들도 포함시키기 위한 연구를 진행하고 있다고 강조했다. 이런 기술이 구현될 경우엔 증강현실(AR) 안경 기기를 활용해, 서로 다른 언어를 사용하는 사람들끼리도 자유롭게 대화할 수 있게 될 것이란 게 메타의 주장이다.
빌더봇으로 나만의 세상 구축
‘무얼 시키면 만들어주는 로봇’인 빌더봇(Builder Bot)으로 나만의 세상을 구축한다?… 메타는 왜 인류의 자유로운 소통을 가로막는 ‘언어 장벽을 허물기 위해’ 공을 들이고 있는 걸까?... 레온티 므로벨리에 따르면 바벨탑이 무너지고 인류는 서로 다른 언어를 사용하도록 분할되었는데... 초국가적 플랫폼을 제대로 구현하기 위한 첫 단계가 '바벨탑 해체'이기 때문이다. 그 동안 메타가 페이스북에서 텍스트 번역 서비스를 지속적으로 향상시켜 온 것은 이런 사정과 밀접한 관련이 있다. 지난 해 '메타버스 퍼스트'를 선언하면서 번역의 필요성은 더 커졌다. 이젠 문자 뿐 아니라 대화까지 통하도록 해줘야 하기 때문이다.
서로 다른 나라에 거주하면서, 다른 언어를 사용하는 사람들이, 자유롭게 대화하면서 서로 소통할 수 있어야만 진정한 메타버스가 될 수 있다. 메타가 '음성언어 실시간 번역'이란 쉽지 않은 화두를 꺼내든 것도 그 때문이다. 이날 함께 선보인 ‘빌더봇(Builder Bot)’은 마크 저커버그의 메타버스 비전이 어느 쪽을 향하고 있는 지 잘 보여줬다. 빌더봇은 말 그대로 '무언가를 만들어주는 로봇'이다. 행사에서 저커버그의 아바타는 빌더봇에게 “공원을 만들어달라”고 명령했다. 하지만 저커버그는 곧바로 변덕을 부려 "가상 해변으로 데려다달라"고 명령했다. 그러자 순식간에 해변이 나타났다. 저커버그가 이 해변에 구름, 섬 같은 요소들을 추가하라고 명령하자, 곧바로 그럴듯한 해변 풍경이 완성됐다.
빌더봇을 활용하면 메타버스 내에 원하는 환경을 자유롭게 만들 수 있다. 자신이 구축한 환경 안으로 전 세계 사람 누구나 초대할 수 있다. 실시간 음성번역이 지원되면, 그들과 자유롭게 대화를 주고받을 수 있다. 이게 저커버그가 이날 제시한 '메타표 메타버스'의 원대한 비전이다. 음성언어 범용 번역 시스템은 그 원대한 꿈으로 가는 마지막 관문이다. 메타는 바로 그 관문을 향해 한 발 한 발 전진하고 있는 것이다.
파리에 있는 페이스북 AI 연구소의 안젤라 팬은 씨넷과 인터뷰에서 “모든 사람이 새로운 기술을 자유롭게 접할 수 있도록 하기 위해선 번역 문제가 해결되어야만 한다”고 강조했다. 그 꿈이 실현되는 날 영어가 웹의 기본 언어라는 기존 상식도 함께 무너질 것이다.
[참고] [블로터] 황금빛 기자(gold@bloter.net), 2022-03-12.
https://www.bloter.net/newsView/blt202203110047
[참고] [ZDNet] 김익현 미디어연구소장, 2022/02/24.
-