[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Kríž, Vincent Hladká, Barbora Urešová, Zdeňka
Title Czech Legal Text Treebank 1.0
Czech title Český korpus právních textů 1.0
Proceedings 2016: Paris, France: LREC 2016: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016)
Pages range 2387-2392
How published online
URL http://www.lrec-conf.org/proceedings/lrec2016/pdf/936_Paper.pdf
Supported by 2012-2015 TA02010182 (Inteligentní knihovna - INTLIB) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Představujeme nového člena rodiny pražských závislostních korpusů. Český korpus právních textů je morfologicky a syntakticky anotovaný korpus 1128 vět, který obsahuje texty z právní domény, konkrétně dokumenty ze Sbírky zákonů České republiky. Právní texty se odlišují od jiných domén v několika jazykových jevech vyplývajících z vysoké četnosti velmi dlouhých vět. Manuální anotace takových vět představuje novou výzvu. Popisujeme strategii a nástroje pro tento úkol. Korpus je dostupný několika způsoby, a sice z repozitáře LINDAT/CLARIN a on-line pomocí aplikací KonText a TreeQuery.
English abstract We introduce a new member of the family of Prague dependency treebanks. The Czech Legal Text Treebank 1.0 is a morphologically and syntactically annotated corpus of 1,128 sentences. The treebank contains texts from the legal domain, namely the documents from the Collection of Laws of the Czech Republic. Legal texts differ from other domains in several language phenomena influenced by rather high frequency of very long sentences. A manual annotation of such sentences presents a new challenge. We describe a strategy and tools for this task. The resulting treebank can be explored in various ways. It can be downloaded from the LINDAT/CLARIN repository and viewed locally using the TrEd editor or it can be accessed on-line using the KonText and TreeQuery tools.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Nicoletta Calzolari; Khalid Choukri; Thierry Declerck; Marko Grobelnik; Bente Maegaard; Joseph Mariani; Asunción Moreno; Jan Odijk; Stelios Piperidis
ISBN* 978-2-9517408-9-1
Address* Paris, France
Month* May
Venue* Grand Hotel Bernardin Conference Center
Publisher* European Language Resources Association
Creator: Common Account
Created: 5/27/16 12:25 PM
Modifier: Almighty Admin
Modified: 2/25/17 10:07 PM
***

Paperpublic936_Paper.pdfbinary/octet-stream
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Fri Nov 24 05:07:02 CET 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant