Principal investigator (ÚFAL): 
Provider: 
Grant id: 
22-03269S
ÚFAL budget: 
2 992 tis. Kč
Duration: 
2022-2024

RapiDisc

Metody pro rychlou diskurzní anotaci ve vybraných korpusech

Projekt je zaměřen na výzkum a vývoj inovativních nákladově efektivních metod diskurzní
anotace v různých typech textových korpusů dostupných v Prague Dependency Treebank - Consolidated 1.0 (PDT-C). Využijeme a dále rozvineme existující metody pro automatickou diskurzní předanotaci dat a v mezích daných velikostí tohoto projektu provedeme nejdůležitější ruční opravy takto automaticky předanotovaných dat, čímž vytvoříme jedinečný žánrově rozmanitý diskurzně anotovaný korpus v češtině. Projekt se bude zabývat explicitními diskurzními vztahy vyjádřenými tzv. primárními konektory. Výzkum bude věnován rovněž zpřístupnění teoretických i praktických výsledků mezinárodní vědecké komunitě, včetně transformace a zveřejnění dat v široce používaném formátu a taxonomii Penn Discourse Treebanku (PDTB). Výstupy přispějí jak k teoretickým znalostem o diskurzních vztazích v různých typech textů v češtině, nově především v mluvených a přeložených datech, tak ke strojovému zpracování přirozeného jazyka v souvislosti s diskurzními vztahy.

Projekt má tři hlavní cíle:

  • vyzkoumat a vyvinout nákladově efektivní metody poloautomatické anotace diskurzu v různých typech textových dat v Prague Dependency Treebank - Consolidated (PDT-C),
  • vytvořit žánrově rozmanitý diskurzně anotovaný datový zdroj v češtině,
  • vylepšit stávající ruční diskurzní anotaci PDT (části PDT-C).