콘텐츠로 건너뛰기
번역기
이 페이지는 Microsoft 번역기의 기계 번역 서비스에서 자동으로 번역되었습니다. 자세히

마이크로 소프트 번역기 블로그

마이크로소프트 번역기 문학 중국어 번역 출시

읽을 때 고대의 중국어 시, 우리는 종종 고대 작가가 사람, 사건, 사물, 장면을 묘사하는 데 사용할 수있는 매우 멋진 단어에 감탄합니다. 이것은 우리를 위해 남겨진 훌륭한 문화 보물입니다. 그러나 셰익스피어와 유사합니다.'영어구절, 이 시인들이 사용하는 문학중국어는 현대인들이 이해하기 어렵고, 그 안에 담긴 의미와 미묘함은 자주 사라진다.  

이 문제를 해결하기 위해 Microsoft Research Asia의 연구원들은 최신 신경기계 번역 기법을 채택하여 문학중국어와 현대 중국어 간의 직접 번역 모델을 교육하여 문학중국인과 중국어 간의 번역 기능을 창출하는 결과를 낳습니다. 90개 이상의 다른 언어 마이크로 소프트 번역기의 방언. 현재 문학 중국어 번역은 마이크로 소프트 번역기 응용 프로그램, Azure 인지 서비스 번역기Microsoft 번역기 서비스에서 지원하는 여러 Microsoft 제품입니다. 

이미지: 명나라 션 저우의 "안개 낀 비의 웨스트 마운틴"의 그림. 그림에 고대 중국시는  리우, 노던 송 왕조. 이 시는 칭밍 페스티벌 기간 동안 중국 남부의 봄 풍경과 사회 생활의 번영을 묘사합니다.

더 많은 사람들이 중국 전통 문화의 매력을 감상할 수 있도록 지원 

문학 중국어는 중국 전통 문화의 중요한 캐리어입니다. 고대의 방대한 책과 텍스트는 중국을 기록했습니다.'지난 5천 년 동안 풍부하고 심오한 문화. 그 안에 축적되고 담긴 생각과 지혜는 지속적인 탐구와 생각에 합당합니다.  

기계 번역의 도움으로, 관광객은 이제 역사적인 건물과 기념물에 기록 된 고대 중국어 텍스트와 시를 이해할 수 있습니다, 학생들은 이제 중국어를 배울 수 있도록 여분의 도구를 가지고, 고대 텍스트를 정렬하고 번역에 종사하는 연구원은 더 생산적 일 수있다.     

마이크로소프트 리서치 아시아의 수석 연구원인 동동장은 "기술적 관점에서 보면 문학중국어는 별개의 언어로 간주될 수 있다. 문학 중국어와 현대 중국어의 번역이 실현되면, 문학 중국어와 영어, 프랑스어, 독일어와 같은 다른 언어의 번역은 물론 문제가된다."  

문학 중국어 번역 AI 모델의 가장 큰 어려움 : 작은 교육 데이터 

AI 모델 교육의 가장 중요한 요소는 데이터입니다. 데이터 볼륨이 충분히 크고 품질이 충분히 높은 경우에만 Cna 당신은 보다 정확한 모델을 학습합니다. 기계 번역에서 모델 의 교육에는 이중 언어 데이터가 필요합니다: 원본 텍스트 데이터 및 대상 언어 데이터. 문학 중국어의 번역은 매우 특별하다, 그것처럼's는 일상 생활에서 사용되는 언어가 아닙니다.  따라서 다른 언어의 번역과 비교하여 문학 중국어 번역의 교육 데이터는 매우 작으며 기계 번역 모델의 교육에 도움이되지 않습니다.   

Microsoft Research Asia 연구원들은 초기 단계에서 공개적으로 사용할 수 있는 많은 문학 및 현대 중국 데이터를 수집했지만 원래 데이터를 직접 사용할 수는 없습니다. 데이터 정리는 다양한 소스, 다양한 형식의 데이터를 정상화하고 전체 너비/에서 데이터를 정상화하기 위해 수행해야 합니다.반 너비 문장 부호, 모델 학습에 대한 잘못된 데이터의 간섭을 최소화하기 위한 수단입니다. 이러한 방식으로 사용 가능한 실제 고품질 데이터가 추가로 줄어듭니다.  

마이크로소프트 리서치 아시아의 연구원인 Shuming Ma에 따르면, 데이터 희소문제를 줄이기 위해 연구자들은 다음과 같은 많은 양의 데이터 합성 및 증강 작업을 수행했습니다. 

첫째, 공통 문자 학습 데이터 크기를 늘리기 위해 기반 정렬 및 확장. 다른 영어, 프랑스어, 러시아어 등과 같은 중국어와 다른 언어 의 번역, 문학 중국어와 현대 중국어는 동일한 문자 세트를 사용합니다. 이 기능을 활용하여 Microsoft Research Asia의 연구원들은 혁신적인 알고리즘을 사용하여 기계 번역이 일반적인 문자를 기억하고 자연스러운 정렬을 수행한 다음 단어, 구문 및 짧은 문장으로 확장하여 많은 양의 사용 가능한 데이터를 합성할 수 있도록 했습니다.  

둘째, 기계 번역의 견고성을 향상시키기 위해 문장 구조를 변형합니다. 관련 텍스트와 시의 휴식, 연구원은 기계가 고대시를 학습에 더 포괄적 으로 만들기 위해 변형의 숫자를 추가했다. 사람들에게는 전체 문장이 아닌 리듬에 따라 선으로 분류된 시와 같이 비정상적으로 구성된 문장을 볼 때에도 부품을 모아 이해할 수 있습니다. 그러나 이전에 이러한 세분화를 본 적이없는 번역 모델의 경우 혼란 스러울 수 있습니다. 따라서 데이터 형식의 변환은 학습 데이터의 양을 확장할 뿐만 아니라 번역 모델 교육의 견고성을 향상시킬 수 있습니다.  

셋째, 모델 적응성을 높이기 위해 전통적이고 단순화된 캐릭터 번역 교육을 실시합니다. 중국어에서는 문학과 현대 중국어 모두에 전통 문자가 존재합니다. 연구원들이 모델의 적응성을 향상시키기 위해 모델을 교육했을 때, 중국어를 단순화한 데이터를 활용할 뿐만 아니라 중국어 전통및 단순화된 문자와 혼합된 데이터뿐만 아니라 중국어전통 데이터를 추가했습니다. 따라서 모델은 기존의 내용과 단순화된 내용을 모두 이해할 수 있으므로 보다 정확한 번역 결과가 생성됩니다.   

넷째, 번역의 정확성을 향상시키기 위해 외국어 단어의 교육을 증가시킨다. 현대 중국어를 문학 중국어로 번역할 때, "마이크로소프트", "컴퓨터", "고속 철도"와 같은 고대 중국어로 등장한 적이 없는 외국어 단어와 새로운 단어에서 파생된 현대단어가 종종 있습니다. 이 문제를 처리하기 위해 연구원들은 엔터티를 인식하는 작은 모델을 훈련했습니다. 모델은 먼저 엔터티 외부단어의 의미를 변환한 다음 엔터티를 다시 입력하여 기계의 정확성을 보장합니다.'외래 단어의 처리.    

이미지: T그 문학 중국어 번역 프로세스

또한 블로그, 포럼, 웨이보 등과 같은 비공식적인 글쓰기 스타일을 위해 기계 번역 모델은 현대와 문학 중국어 간의 번역의 견고성을 더욱 향상시키기 위해 특별히 훈련되었습니다.  

동동장은 "현행 번역 시스템을 바탕으로 데이터 세트를 지속적으로 풍부하게 하고 모델 교육 방법을 개선하여 더욱 견고하고 다재다능해질 수 있도록 할 것입니다. 앞으로는 중국어 번역문학에 사용될 뿐만 아니라 다른 응용 프로그램 시나리오로도 확장할 수 있습니다."