[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2012
Type in proceedings
Status published
Language English
Author(s) Bojar, Ondřej Žabokrtský, Zdeněk Dušek, Ondřej Galuščáková, Petra Majliš, Martin Mareček, David Maršík, Jiří Novák, Michal Popel, Martin Tamchyna, Aleš
Date 24.5.2012
Title The Joy of Parallelism with CzEng 1.0
Czech title Radost z paralelního korpusu CzEng 1.0
Proceedings 2012: İstanbul, Turkey: LREC 2012: Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)
Pages range 3921-3928
How published online
URL http://www.lrec-conf.org/proceedings/lrec2012/summaries/645.html
Supported by 2009-2012 FP7-ICT-2007-3-231720 (EuroMatrix Plus) 2011-2012 7E11051 (EuroMatrixPlus - Enlarged European Union Bringing Machine Translation for European Languages to the User) 2011-2013 GAUK 4226/2011 (Využití koreference ve strojovém překladu) 2010-2012 GAUK 116310/2010 (Anglicko-český strojový překlad s využitím hloubkové syntaxe) 2010-2013 FP7-ICT-2009-4-247762 (Faust) 2011-2013 7E11041 (Feedback Analysis for User Adaptive Statistical Translation) 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2009-2012 GD201/09/H057 (Res Informatica) 2010-2012 GPP406/10/P259 (Hybridní frázový a hloubkově-syntaktický strojový překlad) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract CzEng 1.0 je aktualizovaná verze česko-anglického paralelního korpusu, volně použitelného pro nekomerční použití. Oproti předchozí verzi je velikost korpusu dvojnásobně zvětšena na 15 milionů větných párů (řádově 200 milionů slov pro každý jazyk). Data jsou pečlivě profiltrována, aby se omezil výskyt neodpovídajících si větných párů apod. CzEng 1.0 je automaticky zarovnán po větách i po slovech. Krom čistě textové verze dáváme k dispozici anotaci korpusu na několika rovinách: morfologické, větně členské (analytické, povrchová závislostní syntax) a tektogramatické (hloubková syntax). Obsažena je také automatická anotace koreference pro oba jazyky.
English abstract CzEng 1.0 is an updated release of our Czech-English parallel corpus, freely available for non-commercial research or educational purposes. In this release, we approximately doubled the corpus size, reaching 15 million sentence pairs (about 200 million tokens per language). More importantly, we carefully filtered the data to reduce the amount of non-matching sentence pairs. CzEng 1.0 is automatically aligned at the level of sentences as well as words. We provide not only the plain text representation, but also automatic morphological tags, surface syntactic as well as deep syntactic dependency parse trees and automatic co-reference links in both English and Czech. This paper describes key properties of the released resource including the distribution of text domains, the corpus data formats, and a toolkit to handle the provided rich annotation. We also summarize the procedure of the rich annotation (incl. co-reference resolution) and of the automatic filtering. Finally, we provide some suggestions on exploiting such an automatically annotated sentence-parallel corpus.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access yes
WOS Code 000323927704001
Scopus EID Code 2-s2.0-85008344441
ISBN* 978-2-9517408-7-7
Address* İstanbul, Turkey
Month* May
Venue* Lütfi Kırdar Convention & Exhibition Centre
Publisher* European Language Resources Association
Creator: Common Account
Created: 6/19/12 4:35 PM
Modifier: Common Account
Modified: 2/28/19 1:08 PM
***

published version of the paperpublic2012_czeng.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2019. Page generated: Wed Apr 24 17:23:27 CEST 2019

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant