| Literature DB >> 33335545 |
Thien Nguyen1, Huu Nguyen2, Phuoc Tran3.
Abstract
Building the first Russian-Vietnamese neural machine translation system, we faced the problem of choosing a translation unit system on which source and target embeddings are based. Available homogeneous translation unit systems with the same translation unit on the source and target sides do not perfectly suit the investigated language pair. To solve the problem, in this paper, we propose a novel heterogeneous translation unit system, considering linguistic characteristics of the synthetic Russian language and the analytic Vietnamese language. Specifically, we decrease the embedding level on the source side by splitting token into subtokens and increase the embedding level on the target side by merging neighboring tokens into supertoken. The experiment results show that the proposed heterogeneous system improves over the existing best homogeneous Russian-Vietnamese translation system by 1.17 BLEU. Our approach could be applied to building translation bots for language pairs with different linguistic characteristics.Entities:
Mesh:
Year: 2020 PMID: 33335545 PMCID: PMC7722455 DOI: 10.1155/2020/8859452
Source DB: PubMed Journal: Comput Intell Neurosci
Correspondence between technical and linguistic terminology of the translation unit.
| Technical term | Linguistic term for Russian | Linguistic term for Vietnamese |
|---|---|---|
| Subtoken | Subword | Subsyllable |
| Token | Word | Syllable |
| Supertoken | None | Word |
Algorithm 1: Mixed-level transformer-based NMT model for the Russian-Vietnamese language pair.
Summary of the experiment corpus.
| Number of | Russian | Vietnamese | ||||
|---|---|---|---|---|---|---|
| Training | Development | Testing | Training | Development | Testing | |
| Sentences | 30,027 | 1,500 | 1,500 | 30,027 | 1,500 | 1,500 |
| Tokens | 438,875 | 21,820 | 21,941 | 693,681 | 34,436 | 34,651 |
| Tokens per sentence | 14.6 | 14.5 | 14.6 | 23.1 | 23.0 | 23.1 |
| Unique tokens | 46,789 | 7,520 | 7,450 | 5,402 | 1,985 | 2,058 |
The BLEU scores of translation results.
| Experiment | Model name | Translation unit on the source side (technical | Translation unit on the target side (technical | BLEU score |
|---|---|---|---|---|
| 1 | tok2super | Token | Supertoken | 34.45 |
| 2 | tok2tok | Token | Token |
|
| 3 | tok2sub | Token | Subtoken | 31.50 |
| 4 | sub2super | Subtoken | Supertoken |
|
| 5 | sub2tok | Subtoken | Token | 37.23 |
| 6 | sub2sub | Subtoken | Subtoken |
|
Hyperparameter values of NMT models.
| Hyperparameter | Value |
|---|---|
| Dictionary | Tokens with occurrence frequency ≥ 2 |
| Dimension of context vectors | 256 |
| Number of encoder sublayers | 3 |
| Number of decoder sublayers | 3 |
| Multihead attention | 8 heads |
| Dimension of encoder feedforward layer | 512 |
| Dimension of decoder feedforward layer | 512 |
| Dropout level | 0.1 |
| Optimizer | Adam |
| Learning rate | 5 |
| Number of epochs | 20 |
Input/output of NMT models.
| Type | Example |
|---|---|
| Source sentence | сотрудничество с гаагой, кажется, приносит только боль, унижение и позор. |
| Target sentence | hợp tác với the hague dường như chỉ mang lại nỗi đau, sự sỉ nhục và xấu hổ. |
| Sequence of source subtokens | отрудничество|с|гаа@@|гой|,|кажется|,|приносит| только|боль|,|уни@@|жение|и|по@@|зор|. |
| Sequence of source tokens | сотрудничество|с|гаагой|,|кажется|,|приносит| только|боль|,|унижение|и|позор|. |
| Sequence of target subtokens | hợp|tác|với|th@@|e|ha@@|gu@@|e|dường|như|chỉ|mang| lại|nỗi|đau|,|sự|s@@|ỉ|nh@@|ục|và|xấu|h@@|ổ|. |
| Sequence of target tokens | hợp|tác|với|the|hague|dường|như|chỉ|mang|lại|nỗi| đau|,|sự|sỉ|nhục|và|xấu|hổ|. |
| Sequence of target supertokens | hợp_tác|với|the|hague|dường_như|chỉ|mang|lại|nỗi| đau|,|sự|sỉ_nhục|và|xấu_hổ|. |
Translations from a short Russian sentence.
| Tag | Content |
|---|---|
| Russian | “я не верю в железные законы истории карла маркса.” |
| Meaning | “I do not believe in the iron laws of the history of Karl Marx.” |
| Reference | “tôi không tin vào các qui luật lịch sử sắt của karl marx.” |
| tok2tok | “tôi không tin tức cho luật sư của marx đã gặp rắc rối lịch sử.” |
| sub2sub | “tôi không tin vào sắt màn luật sắt trong lịch sử của marx.” |
| sub2super | “tôi không tin vào luật sắt lịch sử của marx đã Viết bài Viết bài <unk>” |
Translations from a long Russian sentence.
| Tag | Content |
|---|---|
| Russian | “в то же самое время египет и саудовская аравия отчаянно желают избежать падения режима ассада.” |
| Meaning | “at the same time, Egypt and Saudi Arabia are desperate to avoid the collapse of the Assad regime.” |
| Reference | “đồng thời, ai cập và ả rập xê út đang tuyệt vọng để tránh sự sụp đổ của chế độ assad.” |
| tok2tok | “đồng thời, ai cập và ả rập saudi muốn tránh sự sụp đổ của chế độ assad.” |
| sub2sub | “đồng thời, ai cập và ả rập saudi có sẵn sàng tránh chế độ assad.” |
| sub2super | “đồng thời, ai cập và ả rập saudi rất muốn tránh sự thất bại của chế độ assad.” |
Translations of different lengths from a long Russian sentence.
| Tag | Content |
|---|---|
| Russian | “вместо того чтобы сфокусироваться только на кризисе, они вынуждены нервничать под прицелом телекамер сми.” |
| Meaning | “instead of focusing only on the crisis, they are forced to get nervous at the sight of media cameras.” |
| Reference | “thay vì chỉ tập trung vào cuộc khủng hoảng, họ buộc phải lo lắng khi nhìn thấy các camera truyền thông.” |
| tok2tok | “thay vì cuộc khủng hoảng, chỉ có cuộc khủng hoảng, họ bị buộc phải bị buộc bởi các phương tiện truyền thông bên ngoài truyền thông.” |
| sub2sub | “thay vì tập trung vào cuộc khủng hoảng, họ buộc phải buộc phải suy dinh dưỡng các biện pháp truyền thông.” |
| sub2super | “thay vì tập trung vào cuộc khủng hoảng, họ chỉ tập trung vào các biện pháp truyền thông, buộc phải chịu sự thiên vị cho các biện pháp truyền thông nói chung.” |