[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Mareček, David
Title Merged bilingual trees based on Universal Dependencies in Machine Translation
Czech title Dvojjazyčné stromy založené na Universal Dependencies ve strojovém překladu
Proceedings 2016: Stroudsburg, PA, USA: WMT 2016 (ACL): Proceedings of the First Conference on Machine Translation (WMT). Volume 2: Shared Task Papers
Pages range 333-338
How published online
URL https://aclweb.org/anthology/W/W16/W16-2318.pdf
Supported by 2014-2016 GP14-06548P (Odvození větné struktury bez anotovaných korpusů) 2013-2016 FP7-ICT-2013-10-610516 (QTLeap)
Czech abstract V tomto příspěvku představujeme náš nový experimentální systém sloučení závislost reprezentace dvou rovnoběžných vět do jednoho strom závislostí. Všechny vnitřní uzly v závislosti stromu představují zdroj-cílové páry slovy, další slova jsou ve formě koncové uzly. Používáme Univerzální Závislosti anotace styl, ve kterém funkční slova, jejichž použití se často liší mezi jazyky, jsou zaznamenány jako listy. Paralelní korpus je analyzován v minimálně dohlíží způsobem. Nezarovnaný slova jsou zde automaticky tlačil na povrch listů. Představujeme jednoduchý systém překladu vyškoleného na takových sloučených stromech a vyhodnocovat jej WMT 2016 anglicko-to-český a česko-to-anglický překlad úloh. I přesto, že model je doposud velmi jednoduché a byl používán žádný jazykový model a model word-li řazení varianta Český k angličtině dosáhl podobného Bleu skóre jako další zavedeného systému stromu bázi.
English abstract In this paper, we present our new experimental system of merging dependency representations of two parallel sentences into one dependency tree. All the inner nodes in dependency tree represent source-target pairs of words, the extra words are in form of leaf nodes. We use Universal Dependencies annotation style, in which the function words, whose usage often differs between languages, are annotated as leaves. The parallel treebank is parsed in minimally supervised way. Unaligned words are there automatically pushed to leaves. We present a simple translation system trained on such merged trees and evaluate it in WMT 2016 English-to-Czech and Czech-to-English translation task. Even though the model is so far very simple and no language model and word-reordering model were used, the Czech-to-English variant reached similar BLEU score as another established tree-based system.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Ondřej Bojar; et al .
ISBN* 978-1-945626-10-4
Address* Stroudsburg, PA, USA
Month* August
Venue* Humboldt University
Publisher* Association for Computational Linguistics
Institution* Association for Computational Linguistics
Creator: Common Account
Created: 10/18/16 10:23 AM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

Camera-ready paperpublicpaper.pdfapplication/pdf
Posterpublicposter.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Tue Sep 19 18:55:58 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant