[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2006
Type article
Status published
Language English
Author(s) Bojar, Ondřej Žabokrtský, Zdeněk
Title CzEng: Czech-English Parallel Corpus, Release version 0.5
Czech title CzEng: česko-anglický paralelní korpus, verze 0.5
Journal The Prague Bulletin of Mathematical Linguistics
Number 86
Pages range 59-62
Supported by 2006-2008 GA405/06/0589 (Tektogramatický popis jazyka pro rozpoznávání mluvené řeči a strojový překlad) 2005-2006 GAUK 351/2005 2005-2008 GD201/05/H014 (Collegium Informaticum) 2006-2010 ME 838 (Reprezentace významu a automatické porozumění přirozenému jazyku) 2005-2009 LC536 (Centrum komputační lingvistiky)
Czech abstract V článku je popsán nový anglicko-český paralelní korpus CzEng 0.5, který obsahuje v obou jazycích přibližně 20 miliónů tokenů.
English abstract We introduce CzEng 0.5, a new Czech-English sentence-aligned parallel corpus consisting of around 20 million tokens in either language. The corpus is available on the Internet and can be used under the terms of license agreement for non-commercial educational and research purposes. Besides the description of the corpus, also preliminary results concerning statistical machine translation experiments based on CzEng 0.5 are presented.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
ISSN* 0032-6585
Institution* Univerzita Karlova v Praze
Creator: Common Account
Created: 12/7/06 6:29 AM
Modifier: Almighty Admin
Modified: 2/14/11 10:21 AM
***

Content, Design & Functionality: ÚFAL, 2006–2018. Page generated: Wed Jan 16 03:47:50 CET 2019

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant