Dialogue System Review(聊天机器人)

原文链接

准备开始研究Chatbot,提前做个大概的review。

1. Classification

  • Chit-Chat-oriented Dialogue Systems (Chatbot):
    闲聊型对话机器人,产生有意义且丰富的回复。
  • Task-oriented Dialogue Systems:
    助手类任务驱动

2. Core Issues of Dialogue Management

Approaches

  • Structure-based Approaches
    • Key phrase reactive:关键词匹配
    • Tree and FSM:把对话建模为通过树或者有限状态机的路径
  • Principle-based Approaches
    • Frame:基于FSM,允许多条路径,将对话建模成一个填槽的过程。
      填槽与多轮对话
      槽:完成用户指令所需要补全的信息
      词槽:来自对话中的关键词
      接口槽:来自用户画像或其他场景信息
      优先级:同一个槽组会对应多种填槽方式
      准入条件:节点的准入条件
      答案系统:多种形式
      话题切换:主动切换、被动切换(槽记忆)
    • Information-State Theories:识别对话中流转信息的 relevant aspects,以及这些成分是怎么被更新的,更新过程又是怎么被控制的。
    • Plan-based:BDI (Belief, Desire, Intention) 模型
  • Statistical Approaches
    • RL-Based Approaches:Reinforcement Learning

Dialogue state tracking 多轮对话

经典的语音智能交互图,注意对话管理(DM)的关键角色

[图片上传失败...(image-7e1d42-1529042606946)]

任务驱动的多轮对话

  • 明确的目的:如订餐、订票等
  • 需求比较复杂,有很多限制条件
  • 可能需要分多轮进行陈述需求
  • 当需求不够具体或明确的时候,机器需进行询问、澄清或确认

Tasks 多轮对话的主要任务

  • Dialog state tracking, DST
    维护&更新对话状态
  • Dialog policy
    生成系统决策
    根据 DST 中的对话状态,generate dialog act
  • Interaction
    与后端/任务模型/第三方进行交互
  • Expectations for interpretation
    提供语义表达的期望值

Challenges

  • 模型描述能力与模型复杂度的权衡
  • 用户对话偏离情景路径
    如系统问用户导航目的地的时候,用户反问了一句某地天气情况
  • 多轮对话的容错性
    如3轮对话的场景,用户已经完成2轮,第3轮出现ASR或者NLU错误
  • 多场景的切换和恢复
    绝大多数业务并不是单一场景,场景的切换与恢复即能作为亮点,也能作为容错手段之一
  • 降低交互变更难度,适应业务迅速变化
  • 跨场景信息继承

User modeling

用户模型(略)

3. Example

智能音箱应用场景:

我:帮我订张从杭州到北京的机票。

VPA:请问您希望哪天出发呢?

我:明天杭州下雨吗?

VPA:明天杭州有雷阵雨。

我:后天呢?

VPA:后天杭州天气晴。

我:机票订后天的。

VPA:好的,已帮你预定后天从杭州到北京的机票。

4. Evaluation Metrics

  • Word Overlap-based Metrics
    BLEU / METEOR / ROUGE / deltaBLEU
  • Embedding-based Metrics
    Greedy Matching
    Embedding Average
    Vector Extrema
  • 人工评测
  • context?

When evaluation metrics are not explicitly correlated to human judgement, it is possible to draw misleading conclusions by examining how the metrics rate different models.
CW Liu, et al. -“How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation”

5. Corpus

from papers

  • 中文单轮短文本对话
    Short-Text Conversation(微博)
    Li, et al. "Neural Responding Machine for Short-Text Conversation" ACL. 2015
  • 中文多轮对话(豆瓣)
    MarkWuNLP/MultiTurnResponseSelection
    Wu, Yu, et al. "Sequential Matching Network: A New Archtechture for Multi-turn Response Selection in Retrieval-based Chatbots." ACL. 2017.
  • Twitter Dialog Corpus, 含95w个对话,平均每个对话含6句话。+ Ubuntu Dialogue Corpus, 含50w个对话,和ubuntu相关的专业问题。
    A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues

from internet

6. Compitition

全球首届任务导向型多轮对话系统挑战赛(京东)

  • 指导委员会
    孙茂松,刘洋...
  • 赛程:
    2018年5月30日0:00报名截止,
  • 任务描述:
    给定背景C={userID,productID,orderID},和对话片段D={q0,a0,q1,a1,...,qn,an}, 其中qi代表用户输入(可多个连续问句),ai代表答案输出(可多个连续句)。 要求参赛系统对给定背景和对话片段进行分析,输出满足用户需求的答案。目标是能够 正确、完整、高效的回答用户的问题。
  • 数据集:
    竞赛数据包含百万级真实的京东客户与京东人工客服的对话记录片段。
    数据集消息
  • Baseline: Seq2Seq
  • Evaluation
    • 预赛评测方法:参赛队伍的对话系统提交京东评审小组,工作人员运行系统并输入测试集, 输出结果采用deltaBLEU方法进行全自动评测。在测试集中,每个对话片段会配有15个人工提取的答案,每个答案有相应的权重。参赛系统的答案会和每个人工答案计算BLEU,最终的deltaBLEU分为加权平均分。
    • 决赛评测办法:扩大进入决赛的队伍可使用的训练和开发数据集量级用于优化系统。决赛时,工作人员同时运行参赛系统,后台评委人员用 20套同样的对话主题开始输入问题,并根据系统回答持续对话直到完成对话任务或者超出20轮时停止。评委人员和参赛系统双盲。最终的得分是按照以下公式产生:任务完成率×50% +对话满意度×30%+任务完成效率×20%

The Conversational Intelligence Challenge 2 (ConvAI2)

  • NIPS 2018 Competition
  • Aim:
    Establish a concrete scenario for testing chatbots that aim to engage humans, and become a standard evaluation tool in order to make such systems directly comparable.
  • Improment:
    • providing a dataset from the beginning, Persona-Chat
    • making the conversations more engaging for humans
    • simpler evaluation process (automatic evaluation, followed then by human evaluation)
  • Baseline


    ConvAI2 baseline
  • PersonaChat ConvAI2 Dataset
    The Persona-Chat task aims to model normal conversation when two interlocutors first meet, and get to know each other. Their aim is to be engaging, to learn about the other’s interests, discuss their own interests and find common ground. Consists of 164,356 utterances in over 10,981 dialogs, some of which are set aside for validation. The speaker pairs each have assigned profiles coming from a set of 1155 possible personas, each consisting of at least 5 profile sentences, setting aside 200 never seen before personas for validation.


    ConvAI2_dataset
  • Common issues with chit-chat models:
    • (i) the lack of a consistent personality (Li et al., 2016) as they are typically trained over many dialogs each with different speakers
    • (ii) the lack of an explicit long-term memory as they are typically trained to produce an utterance given only the recent dialogue history (Vinyals et al., 2015);
    • (iii) a tendency to produce non-specific answers like "I don’t know" (Li et al., 2015).
  • Evaluation
    • (i) automated evaluation metrics on a new test set hidden from the competitors;
    • (ii) evaluation on Amazon Mechanical Turk; and
    • (iii) "wild" live evaluation by volunteers having conversations with the bots.
  • Schedule
    September 30th

一些思考:

  • 放心让智能音响订机票吗?
  • 智能音箱是不是应用场景比较有限?
  • 用于英语学习交流?(多轮对话的进阶?)
  • 构建通用交互模型?( 构建用户画像,最大程度预填充“接口槽”)
  • 闲聊的基础:为机器本身构建一个“画像”?

参考

Post author: Konfido
Post link: https://konfido.github.io/2018/06/14/2018-06-13-chatbot-review/
Copyright Notice:All articles in this blog are licensed under CC BY-NC-SA 3.0unless stating additionally.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容

  • 本文转自中国中文信息学会青年工作委员会作者:李林琳,赵世奇(注:本文的第一部分主要内容基于“Review of s...
    MiracleJQ阅读 3,922评论 0 4
  • 在路上
    一枚冰儿阅读 128评论 2 0
  • 不知不觉 都已经从学校回归自然了十天 偶尔我还是会想起学校里的同学 也许下学期我们各自就要分道扬镳了 嗯 其实我并...
    Survivor幸存者阅读 224评论 0 0
  • 今天是6月1日,我和小伙伴们都开心极了。因为今天是我们儿童的节日。 我们首先来到操场,今天,一年级入队了。看他...
    丫头嘞一哦阅读 230评论 0 0