[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2016
Type in proceedings
Status published
Language English
Author(s) Plátek, Ondřej Jurčíček, Filip
Title A Dataset of Operator-client Dialogues Aligned with Database Queries for End-to-end Training
Czech title Dataset konverzací mezi operátorem a klientem zarovaný s dotazy do databáze pro end-to-end trénovaní
Proceedings 2016: Los Angeles, CA, USA: IVA 2016: Intelligent Virtual Agents
Pages range 0-0
How published online
Supported by 2015-2018 GAUK 19/2015 (Získávání znalostí z hlasového dialogu) 2012-2016 LK11221 (Vývoj metod pro návrh statistických mluvených dialogových systémů) 2016-2019 LM2015071 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2012-2016 PRVOUK P46 (Informatika) 2016 SVV 260 333 (Teoretické základy informatiky a výpočetní lingvistiky)
Czech abstract Tento článek prezentuje novou datovou sadu pro výcvik end-to-end úkol orientovaně konverzační agentů. Obsahuje rozhovory mezi operátorem - odborníkem na danou doménu, a klientem, který hledá informace o úloze. Spolu s konverzační přepisy zaznamenáme databázová volání prováděné operátorem, které zachycují význam dotazu uživatele. Očekáváme, že se snadno získatelné databázová volání nám umožní trénovat end-to-end dialog agenty se s výrazně méně tréninkových dat. Datová sada je sbírána pomocí crowdsourcing a rozhovory pokrývají dobře známé restaurace doménu. Kvalita dat je vynucováno vzájemné kontroly mezi přispěvateli. Datový soubor je k dispozici ke stažení pod licencí Creative Commons 4.0 BY-SA licencí.
English abstract This paper presents a novel dataset for training end-to-end task oriented conversational agents. The dataset contains conversations between an operator – a task expert, and a client who seeks information about the task. Along with the conversation transcriptions, we record database API calls performed by the operator, which capture a distilled meaning of the user query. We expect that the easy-to-get supervision of database calls will allow us to train end-to-end dialogue agents with significantly less training data. The dataset is collected using crowdsourcing and the conversations cover the well-known restaurant domain. Quality of the data is enforced by mutual control among contributors. The dataset is available for download under the Creative Commons 4.0 BY-SA license.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
ISBN* 978-3-319-47664-3
Address* Los Angeles, CA, USA
Month* September
Publisher* Springer
Institution* ICT, UCLA
Creator: Common Account
Created: 8/8/16 10:00 AM
Modifier: Common Account
Modified: 9/20/17 11:24 AM
***

Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Mon Sep 25 13:27:44 CEST 2017

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant