| Literature DB >> 35694597 |
Thien Nguyen1, Trang Nguyen2,3.
Abstract
Transformer neural models with multihead attentions outperform all existing translation models. Nevertheless, some features of traditional statistical models, such as prior alignment between source and target words, prove useful in training the state-of-the-art Transformer models. It has been reported that lightweight prior alignment can effectively guide a head in the multihead cross-attention sublayer responsible for the alignment of Transformer models. In this work, we make a step further by applying heavyweight prior alignments to guide all heads. Specifically, we use the weight of 0.5 for the alignment cost added to the token cost in formulating the overall cost of training a Transformer model, where the alignment cost is defined as the deviation of the attention probability from the prior alignments. Moreover, we increase the role of prior alignment, computing the attention probability by averaging all heads of the multihead attention sublayer within the penultimate layer of Transformer model. Experimental results on an English-Vietnamese translation task show that our proposed approach helps train superior Transformer-based translation models. Our Transformer model (25.71) outperforms the baseline model (21.34) by the large 4.37 BLEU. Case studies by native speakers on some translation results validate the machine judgment. The results so far encourage the use of heavyweight prior alignments to improve Transformer-based translation models. This work contributes to the literature on the machine translation, especially, for unpopular language pairs. Since the proposal in this work is language-independent, it can be applied to different language pairs, including Slavic languages.Entities:
Mesh:
Year: 2022 PMID: 35694597 PMCID: PMC9187440 DOI: 10.1155/2022/6856567
Source DB: PubMed Journal: Comput Intell Neurosci
Some basic statistics of the datasets.
| English-Vietnamese | Training | Development | Testing |
|---|---|---|---|
| Sentence pairs | 42026 | 1482 | 1527 |
| Average lengths | 19.2–26.2 | 17.8–24.5 | 20.6–28.3 |
| Words | 806456–1099205 | 26315–36276 | 31513–43286 |
| Dictionaries | 36672–16441 | 4981–2720 | 6211–3462 |
Figure 1The cost of training the baseline Transformer-L1 model.
Figure 2The cost of training the Transformer-H1 model.
Figure 3The cost of training the Transformer-HA model.
Figure 4BLEU scores of translation by the models.
Translation from an English sentence of 8 tokens.
| Case study 1 | |
|---|---|
| English source | “How do people know they have Alzheimer?” |
| Vietnamese reference | “làm sao người ta biết mình mắc bệnh An-dai-mơ?” |
| Translation by Transformer-L1 | “người ta biết họ đã làm thế nào?” |
| Translation by Transformer-H1 | “làm thế nào cho người ta biết họ có bị đổ vỡ như thế nào?” |
| Translation by Transformer-HA | “làm thế nào mà mọi người biết có bị An-dai-mơ không?” |
Translation from an English sentence of 10 tokens.
| Case study 2 | |
|---|---|
| English source | “It usually affects people over 65 years of age.” |
| Vietnamese reference | “đối tượng thường mắc bệnh là người già trên 65 tuổi.” |
| Translation by Transformer-L1 | “người ta thường ảnh hưởng đến 65 tuổi.” |
| Translation by Transformer-H1 | “nó thường ảnh hưởng đến mọi người trên 65 tuổi.” |
| Translation by Transformer-HA | “nó thường xảy ra ở những người trên 65 tuổi.” |
Translation from an English sentence of 12 tokens.
| Case study 3 | |
|---|---|
| English source | “The longer patients were being treated, the more reported side effects.” |
| Vietnamese reference | “bệnh nhân nào được điều trị càng lâu thì chịu tác dụng phụ càng lớn.” |
| Translation by Transformer-L1 | “bệnh nhân lâu hơn được điều trị, càng nhiều các tác dụng phụ hơn.” |
| Translation by Transformer-H1 | “bệnh nhân lâu hơn được điều trị, báo cáo các tác dụng phụ hơn.” |
| Translation by Transformer-HA | “bệnh nhân còn được điều trị lâu hơn, theo báo cáo nhiều tác dụng phụ hơn.” |
Translation from an English sentence of 14 tokens.
| Case study 4 | |
|---|---|
| English source | “A UK charity said it was aware some women stopped their treatment early.” |
| Vietnamese reference | “hội từ thiện Anh quốc nói rằng họ biết một số phụ nữ đã ngưng điều trị sớm.” |
| Translation by Transformer-L1 | “tổ chức từ thiện Anh cho biết họ nhận thức được một số phụ nữ ngưng điều trị sớm hơn.” |
| Translation by Transformer-H1 | “tổ chức từ thiện Anh cho biết họ nhận thức được một số phụ nữ dừng lại điều trị sớm.” |
| Translation by Transformer-HA | “tổ chức từ thiện Anh cho biết họ nhận thức được một số phụ nữ đã ngưng điều trị sớm.” |
Translation from an English sentence of 16 tokens.
| Case study 5 | |
|---|---|
| English source | “Besides the overheating issues, here are several other problems to keep an eye on.” |
| Vietnamese reference | “bên cạnh các vấn đề nhiệt độ, ở đây còn một số vấn đề khác cần phải để mắt đến.” |
| Translation by Transformer-L1 | “ngoài những vấn đề quá nóng, đây là một số vấn đề khác để giữ mắt.” |
| Translation by Transformer-H1 | “ngoài các vấn đề quá nóng, dưới đây là một số vấn đề khác để giữ mắt lên.” |
| Translation by Transformer-HA | “ngoài các vấn đề quá nóng, dưới đây là một số vấn đề khác để giữ cho mắt.” |