러시아 현지 트렌드

러시아의 구글, 얀덱스의 자연어 처리 기술

▶ 한국 IT 기업이 러시아 진출 시 러시아 국내 서비스 점유율이 높은 얀덱스와 협력하여 부가 서비스 개발 및 활용 시 강력한 파급 효과 및 시장 확대 가능

Yandex 인공지능 자연어 처리 기술

얀덱스는 1997년 설립되었다. 구글과 마찬가지로 검색 엔진이 그 시작이며, 적어도 구소련권(러시아, 벨라루스, 카자흐스탄 등)에서만큼은 구글보다 높은 점유율을 갖고 있다. 또한, 얀덱스는 단순 검색 서비스 제공에만 그치지 않고 얀덱스 네비, 얀덱스 택시, 얀덱스 마켓 등 연계사업도 다양하게 진행하고 있으며 수준도 상당하다. 과거 러시아는 택시 문화가 발전하지 않아 운임을 바가지 쓰기 일쑤였다. 그러나 이젠 다르다. 얀덱스 택시의 등장으로 러시아 국민들도 한국과 다를 바 없는 서비스를 받고 있다. 이런 획기적인 서비스 향상은 음성인식 같은 인공지능 기술 덕분이다. 러시아 최대 포털업체 ‘얀덱스(Yandex)’는 2017년에 인공지능 비서 서비스 ‘알리사(Alisa)’를 선보였으며, 엔터테인먼트, 가전, 차량 등 다양한 분야에 융합시켰다. 그리고 이제는 딥러닝 신경망 학습을 기반으로 자연어 처리 기술개발을 핵심 기술로 키우려 중점 연구하고 있다. 자연어 처리(NLP, Natural Language Processing)는 인간의 언어 표현을 분석하는 계산 기법이다. 자연어 처리가 어려운 점은 그 해석이 모호하기 때문이다. “괜찮아”라는 표현에는 “정말 괜찮아!”, “왜 이런 걸 물어”, “귀찮아” 등 다중의 의도가 숨겨져 있다. 따라서 자연어를 제대로 해석하려면 문맥과 상식, 상황에 대한 인식도 동반되어야 한다. 이러한 모호함을 해결하는 방법으로 얀덱스는 딥러닝을 활용하고 있다.

딥러닝은 입력 정보를 신경 세포인 뉴런 구조로 나누고 가중치라는 요소를 곱해 최적의 해를 스스로 찾아내는 기법이다. 딥러닝에 자연어 처리를 응용하기 위해선 다음과 같은 전처리 과정이 필요하다. 우선 단어가 가진 형태소를 분석한다. 즉 단어의 뜻을 파악하는 것이다. 다음으로 구문의 구조를 파악한다. 마지막으로 의미를 추출한다. 첫 단계인 형태소를 분석하려면 입력된 문장을 토큰으로 나누고, 정제하고 정규화하는 과정이 필요하다. 그러나 기계 학습에도 풀어야 할 숙제가 있다. 기계가 아무리 많은 단어를 학습해도 결국 세상 모든 단어를 알기까지는 시간과 계산이 들어간다. 훈련된 단어 집합 속에서 미처 학습하지 못한 단어를 마주하면 시쳇말로 기계도 멘-붕이 된다. 이 상황을 Out- Of-Vocabulary 즉, OOV 상황이라고 한다. 이를 해결할 유연한 방법은 BPE(Byte Pair Encoding)이다. BPE는 기본적으로 압축 기술로, 알고리즘상 연속되는 글자의 쌍을 찾아서 하나의 글자로 병합하는 방식이다. 예를 들어, “aaabdaa” 라는 7바이트 문장이 있을 때 “Z”로 “aa”를 치환하고, “Y”로 “bd”를 치환하면 “ZaYZ” 4바이트 문장으로 압축되는 이치다. 자연어 처리(NLP) OOV 해결에도 이 단어 분리 방법을 활용한다. 문장에 effective라는 단어가 있다고 하자. 이때 기계가 학습하지 못한 effectively 라는 단어가 입력되면 자연어 처리 로직은 OOV 상태가 된다. 하지만 BPE를 통해 Subword ly 구조로 분절하고 해석하면 학습하지 않은 문장도 해석할 수 있게 된다.

그러나 여기에도 문제가 있다. 말뭉치 형태로 쪼개진 토큰들에 이용 빈도가 낮은 단어나 오타, 노이즈 등이 입력되면 BPE가 유연하게 대처하지 못한다.

얀 덱 스 팀 은 2 0 1 9 년 에 이 러 한 문 제 를 효과적으로 해결하는 방법을 발표했다. BPE 학습 중 Subword merge의 확률을 의도적으로 떨어뜨려 하나의 입력 단어가 다양한 분절 결과를 갖도록 학습시키는 BPEdrop out이 그 해답이었다. 얀덱스 팀은 해당 정규화를 통해 기존 BPE 기법을 사용했을 때보다 BPE-dropout 기법이 BLEU 스코어를 개선시키고 오타가 섞인 단어와 자주 등장하지 않는 단어들을 기존보다 잘 학습하는 것을 증명하였다.

token to substring ratio

BPE

BPE-dropout

얀덱스는 이러한 기술적 성과에 힘입어 한국과의 기술협력에도 적극적이다. 현대모비스와 자율주행 택시를 개발하는 등으로 협력하고 있으며, 2019년 3월에 딥러닝 기반 자율주행 플랫폼 개발 양해각서를 체결한 후 6주 만에 신형 산타페에 자율주행 시스템을 탑재하는 쾌거도 이뤘다. 인공지능 분야에서도 기술협력을 통해 양국간 약진하기를 기대해 본다

【참고 문헌】

『BPE-Dropout : Simple and Effective Subword Regularization』 (2019, Yandex Russia 외),

『딥러닝을 이용한 자연어 처리 입문』 (2020, 유원준),

『코트라 러시아 모스크바 무역관 이슈 보고서』 (2017)


한러혁신센터 / (21655) 인천광역시 남동구 청능대로 451(고잔동 649-3) 마크원지식산업센터 6층 / 032-458-8731
COPYRIGHTⓒ 2020 KRIC. All rights reserved..