[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2018
Type in proceedings
Status published
Language English
Author(s) Libovický, Jindřich Helcl, Jindřich Mareček, David
Title Input Combination Strategies for Multi-Source Transformer Decoder
Czech title Strategie kombinování více vstupů v dekodéru modelu Transformer
Proceedings 2018: Stroudsburg, PA, USA: WMT 2018: Proceedings of the Third Conference on Machine Translation, Volume 1: Research Papers
Pages range 253-260
How published online
Supported by 2017-2018 SVV 260 453 (Teoretické základy informatiky a výpočetní lingvistiky) 2018-2019 GAUK 976518/2018 (Využití lingvistické informace v neuronovém strojovém překladu) 2012-2018 GBP103/12/G084 (Centrum pro multi-modální interpretaci dat velkého rozsahu) 2018-2020 GA18-02196S (Linguistic Structure Representation in Neural Networks)
Czech abstract Při sekvenčním učením s více zrdoje informace, může být mechanismus pozornosti (attention) modelován různými způsoby. Toto téma bylo důkladně studováno na rekurentních neurnovoých sítích. V tomto článku se zabýváme tímto problém v architektuře Transormer. Navrhujeme čtyři různé strategie kombinace vstupů: sériové, paralelní, ploché a hierarchické. Navrhované metody vyhodnocujeme na úloze multimodálního překladu a překladu z více zdrojových jazyků současně. Z výsledků experimentů vyplývá, že modely jsou schopny využívat více zdrojů a fungovat lépe než modely s pouze jedním zdrojem informace.
English abstract In multi-source sequence-to-sequence tasks, the attention mechanism can be modeled in several ways. This topic has been thoroughly studied on recurrent architectures. In this paper, we extend the previous work to the encoder-decoder attention in the Transformer architecture. We propose four different input combination strategies for the encoder-decoder attention: serial, parallel, flat, and hierarchical. We evaluate our methods on tasks of multimodal translation and translation with multiple source languages. The experiments show that the models are able to use multiple sources and improve over single source baselines.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access yes
Editor(s)* Ondřej Bojar
ISBN* 978-1-948087-81-0
Address* Stroudsburg, PA, USA
Month* October
Publisher* Association for Computational Linguistics
Institution* Association for Computational Linguistics
Creator: Common Account
Created: 9/3/18 11:51 PM
Modifier: Common Account
Modified: 11/1/18 12:45 AM
***

Presentation slidespublicpresentation.pdfapplication/pdf
Camera ready paperpublicInput_Combination_Strategies_for_Multi_Source_Tran...application/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Dec 17 16:55:43 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant