[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2014
Type in proceedings
Status published
Language English
Author(s) Jawaid, Bushra Kamran, Amir Bojar, Ondřej
Title A Tagged Corpus and a Tagger for Urdu
Czech title Otagovaný korpus a tagger pro urdštinu
Proceedings 2014: Reykjavík, Iceland: LREC 2014: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)
Pages range 2938-2943
How published online
Supported by 2012-2015 FP7-ICT-2011-7-288487 (MosesCore) 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat)
Czech abstract V článku popisujeme vydání rozsáhlého jednojazyčného korpusu urdštiny s automatickým značkováním slovních druhů. Navazujeme na práci Jawaid a Bojar (2012), kde byly pro značkování použity tři taggery a finální výsledek určilo jejich hlasování. Používáme stejnou komplexní sestavu na velký jednojazyčný korpus a výsledek zpřístupňujeme veřejnosti. Kromě toho na tomto velkém korpusu trénujeme jeden samostatný tagger, což, doufáme, podstatě zjednoduší zpracování urdštiny. Tento samostatný tagger na nezávislých testovacích datech dosahuje přenosti 88,74 %.
English abstract In this paper, we describe a release of a sizeable monolingual Urdu corpus automatically tagged with part-of-speech tags. We extend the work of Jawaid and Bojar (2012) who use three different taggers and then apply a voting scheme to disambiguate among the different choices suggested by each tagger. We run this complex ensemble on a large monolingual corpus and release the tagged corpus. Additionally, we use this data to train a single standalone tagger which will hopefully significantly simplify Urdu processing. The standalone tagger obtains the accuracy of 88.74% on test data.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
WOS Code 000355611004092
Editor(s)* Nicoletta Calzolari; Khalid Choukri; Thierry Declerck; Hrafn Loftsson; Bente Maegaard; Joseph Mariani
ISBN* 978-2-9517408-8-4
Address* Reykjavík, Iceland
Month* May
Venue* Harpa Conference Centre
Publisher* European Language Resources Association
Creator: Common Account
Created: 3/30/14 3:43 PM
Modifier: Common Account
Modified: 12/30/15 8:50 AM
***

Urdu tagsetpublicUrdu_tagsetapplication/octet-stream
Camera-ready PaperpublicSUBMITTED.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Tue Oct 23 06:40:58 CEST 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant