[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2017
Type book chapter/part
Status published
Language English
Author(s) Straková, Jana Straka, Milan Ševčíková, Magda Žabokrtský, Zdeněk
Title Czech Named Entity Corpus
Czech title Korpus pojmenovaných entit v češtině
Book title Handbook of Linguistic Annotation
Editor(s) Nancy Ide; James Pustejovsky
Publisher Springer Netherlands
Publisher's city and country Netherlands
Pages range 855-873
Total book pages 1459
How published print
Supported by 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2013 SVV 267 314 (Teoretické základy informatiky a výpočetní lingvistiky) 2017-2021 PROGRES Q48 (Informatika)
ISBN 978-94-024-0879-9
Czech abstract Představujeme korpus českých vět s ručně anotovanými pojmenovanými entitami, ve kterém byla použita bohatá dvouúrovňová hierarchie typů pojmenovaných entit. Korpus představuje první dostupný českým zdroj pro rozpoznávání pojmenovaných entit a od roku 2007 stimuloval výzkum v tomto oboru. Popisujeme dvouúrovňovou jemnou hierarchii s vnořenými entitami a motivace, které nás vedly k jejímu návrhu. Dále ukazujeme, jak byla tato data prakticky využita při návrhu a trénování rozpoznávače pojmenovaných entit a provádíme velké množství experimentů, abychom kriticky ohodnotili rozhodnutí, která jsme v průběhu návrhu korpusu provedli. Důkladně prodiskutujeme dopad zvoleného výběru vět, velikosti korpusu, způsobu morfologického zpracování, ale i výběr typů pojmenovaných entit a dalších vlastností korpusu na výkon rozpoznávače pojmenovaných entit z hlediska strojového učení s učitelem.
English abstract We present a corpus of Czech sentences with manually annotated named entities, in which a rich two-level hierarchy of named entity types was used. The corpus was the first available large Czech named entity resource and since 2007, it has stimulated the research in this field for Czech. We describe the two-level fine-grained hierarchy allowing embedded entities and the motivations leading to its design. We further discuss the data selection and the annotation process. We then show how the data can be used for training a named entity recognizer and we perform a number of experiments to critically evaluate the impact of the decisions made in the process of annotation on the named entity recognizer performance. We thoroughly discuss the effect of sentence selection, corpus size, part-of-speech tagging and lemmatization, representativeness and bias of the named entity distribution, classification granularity and other corpus properties in terms of supervised machine learning.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Book type handbook
Role of the author(s) chapter author(s)
Open access no
DOI 10.1007/978-94-024-0881-2
Creator: Common Account
Created: 7/28/17 11:38 AM
Modifier: Common Account
Modified: 7/28/17 8:53 PM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Sep 25 13:45:02 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant