[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2011
Type oral presentation *
Status published
Language English
Author(s) Zeman, Daniel Popel, Martin Mareček, David Ramasamy, Loganathan Štěpánek, Jan Žabokrtský, Zdeněk Hajič, Jan
Title From the Jungle to a Park: Harmonizing Dependency Treebanks of 30 Languages
Czech title Z džungle do lesoparku: harmonizace závislostních korpusů 30 jazyků
Institution Univerzita Karlova v Praze
Publisher's city and country Praha, Czechia
Venue ÚFAL MFF UK
Month October
Supported by 2011-2013 GAP406/11/1499 (Čeština ve věku strojového překladu)
Czech abstract Popíšeme naše nedávné experimenty se závislostní syntaktickou analýzou v mnoha jazycích. Víme o více než 30 jazycích, pro které jsou k dispozici treebanky (většinou závislostní) za přijatelných licenčních podmínek. Tyto treebanky však mají mnoho různých anotačních stylů. Aby byly výsledky pokusů porovnatelné, je třeba jednotlivé anotační styly navzájem co nejvíce přiblížit. Zajímavou otázkou je, jak by měl společný anotační styl vypadat a jaká kritéria použít k vyhodnocení vhodnosti jednotlivých přístupů.
V první části přednášky představíme data, která máme. Rozličnost anotačních stylů předvedeme na různých syntaktických jevech, jejich reprezentaci v korpusech a naše transformace do společného anotačního schématu. Ve druhé části se soustředíme konkrétně na koordinační struktury – jeden z nejobtížnějších jevů jak z pohledu autorů treebanků, tak parserů. Představíme klasifikaci možných reprezentací, vyhodnotíme jejich teoretickou vyjadřovací sílu i praktický dopad na úspěšnost syntaktické analýzy za použití dvou předních závislostních parserů: Maltu a MST.
English abstract We will present our recent parsing experiments with dependency treebanks in multiple languages. We identified more than 30 languages for which treebanks (mostly dependency-based) are available under acceptable licensing terms. However, the treebanks adhere to many different annotation styles. To make our results comparable, we need to make the annotation styles as similar as possible. An interesting question is, how should the common annotation style look like, and what criteria should we use to evaluate suitability of the various approaches.
In the first part of the talk we will present the data we have. We will demonstrate the diversity of annotation styles by giving an overview of various syntactic phenomena, their representation in treebanks and our effort to transform the representation to one common scheme. In the second part we will focus specifically on coordinating structures – one of the most difficult phenomena both for treebank designers and parsers. We will classify the possible annotation styles along several dimensions and we will evaluate both their theoretical expressive power and practical impact on parsing accuracy, using two state-of-the-art dependency parsers: Malt and MST.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Event Seminář ÚFAL
Presentation type in-house seminar/lecture
Open access no
Creator: Common Account
Created: 10/30/11 9:36 AM
Modifier: Common Account
Modified: 11/1/11 2:56 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Dec 17 16:55:54 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant