[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2012
Type PhD dissertation
Status published
Language English
Author(s) Mareček, David
Title Unsupervised Dependency Parsing
Czech title Neřízená závislostní analýza
School MFF UK
Publisher's city and country Prague, Czech Republic
Total book pages 102
Month September
Supported by 2009-2012 GD201/09/H057 (Res Informatica)
Czech abstract Nerízená závislostní analýza je alternativní zpusob urcování vztahu mezi slovy ve vete. Nepotrebuje žádný anotovaný závislostní korpus, je nezávislý na jazykové teorii a univerzální pro velké množství jazyku. Jeho nevýhodou je ale zatím relativne nízká úspešnost. V této práci diskutujeme nekteré predchozí práce a predstavujeme novou metodu nerízenéhé analýzy. Náš závislostní model se skládá ze ctyr podmodelu: (i) hranový model, který rídí rozdelení dvojic rídících a závislých clenu, (ii) model plodnosti, který rídí pocet clenu závislých na uzlu, (iii) model vzdálenosti, který rídí délku závislostních hran a (iv) model vypustitelnosti. Tento model je založen na predpokladu, že slovau která se mohou z vety vypustit, aniž by se porušila její gramaticnost jsou v závislostním slove listy. Odvození závislostních struktur provádíme pomocí Gibbsova vzorkovace. Predstavujeme vzorkovací algoritmus, který zachovovává projektivitu závislostních stromu, cože je velmi užitecnou vlastností. V našich experimentech na 30 jazycích srovnáváme výsledky pro ruzné parametry modelu. Naše metoda prekonávvá dríve publikované výsledky pro vetšinu zkoumaných jazyku.
English abstract Unsupervised dependency parsing is an alternative approach to identifying relations between words in a sentence. It does not require any annotated treebank, it is independent of language theory and universal across languages. However, so far quite low parsing quality is its main disadvantage. This thesis discusses some previous works and introduces a novel approach to unsupervised parsing. Our dependency model consists of four submodels: (i) edge model, which controls the distribution of governor-dependent pairs, (ii) fertility model, which controls the number of node's dependents, (iii) distance model, which controls the length of the dependency edges, and (iv) reducibility model. The reducibility model is based on a hypothesis that words that can be removed from a sentence without violating its grammaticality are leaves in the dependency tree. Induction of the dependency structures is done using Gibbs sampling method. We introduce a sampling algorithm that keeps the dependency trees projective, which is a very valuable constraint. In our experiments across 30 languages, we discuss the results of various settings of our models. Our method outperforms the previously reported results on a majority of the test languages.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Creator: Common Account
Created: 11/5/12 5:03 PM
Modifier: Common Account
Modified: 11/5/12 5:03 PM
***

Unsupervised Dependency Parsingpublic2012_marecek_phd_thesis.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Dec 17 16:56:05 CET 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant