京东云语音语义领域8篇论文被国际顶会接收

摘要
技术的价值往往体现在其应用过程中,便随着人工智能的大规模应用,人工智能的工程化能力正在被人们所关注,根据Gartner发布的2021年重要战略科技趋势,为将人工智能转化为生产力,就必须转向人工智能工程化这门专注于各种人工智能操作化和决策模型(例如机器学习或知识图)治理与生命周期管理的学科。

  技术的价值往往体现在其应用过程中,便随着人工智能的大规模应用,人工智能的工程化能力正在被人们所关注,根据Gartner发布的2021年重要战略科技趋势,为将人工智能转化为生产力,就必须转向人工智能工程化这门专注于各种人工智能操作化和决策模型(例如机器学习或知识图)治理与生命周期管理的学科。

  那么,人工智能的基础研究不再重要了吗?

  答案是否定的。纵观全球各科技企业,无不例外在持续加大对人工智能基础研究的投入,以语音语义为例,作为人工智能的重要组成部分,对该领域的研究正不断突破,为人机的交互模式带来了更多的可能。

  2021年,京东云横扫多个国际顶级学术会议,多篇论文获被发表,细分领域跨域长文的机器阅读理解、内容生成、知识融合、对话推荐、图神经网络和可解释的增量学习等。

  下面以其中的8篇论文为例,分享各自在解决所要攻克的问题、提出的新方法以及取得的可被行业借鉴的成果。

  论文标题:RoR: Read-over-Read for Long Document Machine Reading Comprehension

  论文链接:https://arxiv.org/abs/2109.04780

  发表刊物:Findings of EMNLP 2021

  Motivation: 大规模预训练语言模型在多个自然语言处理任务上取得了显著的成果,但受限于编码长度(例如,BERT只能一次性编码512个WordPiece字符),无法有效地应用于多种长文本处理任务中,例如长文本阅读理解任务。

  Solution: 对此,本论文提出了从局部视角到全局视角的重复阅读方法RoR(如下图所示),可提高超长文本的阅读理解能力。具体而言,RoR 包括一个局部阅读器和一个全局阅读器。首先,给定的长文本会被切割为多个文本片段。然后,局部阅读器会为每个文本片段预测出一组局部答案。这些局部答案接下来会被组装压缩为一个新的短文本来作为原始长文档的压缩版本。全局阅读器会进一步从此压缩文本中预测出全局答案。最终,RoR使用一种投票策略来从局部和全局答案中选择最终预测。

  Experimental Result:在两个长文本阅读理解基准 QuAC 和 TriviaQA 上,大量实验证明了RoR可以有效提高预训练语言模型在长文档阅读的建模能力。RoR在公开对话阅读理解榜单QuAC(https://quac.ai/)上获得第一名的优异成绩。

  图1:QuAC官方Leaderboard(截止2021/10)

  论文标题:Learn to Copy from the Copying History: Correlational Copy Network for Abstractive Summarization

  发表刊物:EMNLP 2021

  Motivation: 复制机制是生成式自动文摘模型的常用模块,已有模型使用注意力概率作为复制概率,忽视了复制历史的影响。

  Solution: 本论文提出了一种新的复制机制(Correlational Copying Network,CoCoNet),该机制可以使用复制历史指导当前的复制概率。具体来说,CoCoNet在计算每一步的复制概率时,不仅会参考当前时刻的注意力概率,还会通过相似度和距离度量,将历史时刻的复制概率转移到当前时刻,从而提高复制行为的连贯性和合理性。此外,我们还提出一种Correlational Copying Pre-training (CoCo-Pretrain) 子任务,进一步增强CoCoNet的复制能力。

  Experimental Result:本论文提出的复制机制,可以应用于一系列文本摘要相关应用中。我们在新闻摘要数据集(CNN/DailyMail dataset)和对话摘要数据集(SAMSum dataset)上的效果(如表1、2)超过已有的生成式摘要模型。

表1:ROUGE scores on the CNN/DailyMail dataset.

  表2:ROUGE scores on the SAMSum dataset.

  论文标题:K-PLUG: Knowledge-injected Pre-trained Language Model for Natural Language Understanding and Generation in E-Commerce

  论文链接:https://arxiv.org/abs/2104.06960

  发表刊物:Findings of EMNLP 2021

  Motivation: 预训练语言模型在多个NLP任务展示出超越非训练语言模型的效果。然而,预训练语言模型在领域迁移过程中,性能会受到影响。特定领域的预训练语言模型对该领域的下游应用会有很大帮助。

  Solution: 本论文为电商领域设计了一个大规模预训练语言模型,定义了一系列电商领域知识,包括产品词、商品卖点、商品要素和商品属性。并针对这些知识,提出了相应的语言模型预训练任务,包括面向知识的掩码语言模型、面向知识的掩码序列到序列生成、商品实体的要素边界识别、商品实体的类别分类、商品实体的要素摘要生成。

  

  Result:本论文提出的预训练语言模型可应用于多个电商领域的文本理解和生成任务,在包括电商知识图谱补齐、电商客服多轮对话、商品自动文摘等多个任务上取得最佳性能。

  论文标题:RevCore: Review-Augmented Conversational Recommendation

  论文链接:https://arxiv.org/abs/2106.00957

  发表刊物:Findings of ACL 2021

  Motivation: 对话推荐系统(Conversational Recommender System)是基于自然语言的多轮对话理解用户的需求和偏好,并根据当前动态的需求和偏好推荐商品和服务。对话推荐系统中长期存在2个挑战。1)对话中信息量较少导致的推荐准确度较低的问题; 2)数据收集过程缺乏专业性导致生成的对话回复信息量较少的问题。

  Solution: 本论文提出使用非结构化的评论作为外部知识缓解对话推荐系统中由于信息量较少而存在的推荐准确度低且回复话术信息量不足的问题。该方法首先突破了非结构性文本(评论)与结构化知识(知识图谱)在对话推荐系统的技术性融合的问题。其次,通过在对话推荐过程中检索出情感一致的评论,进一步提高对用户推荐的契合度。本论文提出的RevCore系统框架图如下图。

  

  Experimental Result: 本方法在保证外部文本与原始数据逻辑一致的前提下,在对话质量和推荐质量上均有较大提升。情感一致的用户评论的引入,首先提高了推荐系统的准确度。此外,由于更加丰富的实体信息以及适当的建模方式提高了对话回复的多样性和丰富度。该框架可较好的应用在工业界的对话推荐系统中,包括智能客服、智能家居、智能对话机器人等。该框架还具有较强的可移植性,RevCore在电影对话推荐领域获得的提升,将给予其他各个行业启发,利用外部评论数据创造更好的对话推荐引擎,提供更好的行业服务。

  论文标题:DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training Encoder

  论文链接:https://arxiv.org/abs/2109.10480

  发表刊物:CIKM 2021

  Motivation:对话文本由于其特殊的角色信息和层次化结构,普通的文本编码器在对话任务的下游任务中往往不能发挥最好的效果。在这篇文章中,受到自监督学习在NLP任务中广泛应用的启发,我们提出了基于自监督学习、面向对话的预训练模型DialogueBERT。

  Solution:这篇论文提出了五个面向对话的自监督预训练任务,包括消息掩码建模、单词掩码建模、消息替换建模、消息顺序交换建模、答复对比建模,基于Transformer模型架构,利用海量对话数据进行预训练,抽取其中的单词、对话轮次、对话角色信息作为输入,学习对话文本的上文结构信息和对话场景语义表示。

  

  Experimental Result:实验证明我们的模型相比其他面向对话的预训练模型,可以较好的改进意图识别、实体识别以及情绪识别等下游对话理解任务的表现。DilaogueBERT直接利用海量无监督对话数据进行自监督学习,证明了基于对话语料的预训练的可行性。相比传统的基于监督学习的编码器和基于通用自然语言模型的编码器,DialogueBERT准确率更高,能够获得更加鲁棒的对话编码效果。本文还分析了多种针对自监督学习的任务特点,对于未来的对话自监督编码研究具有一定借鉴意义。

  论文标题:Multi-hop Attention Graph Neural Networks

  论文链接:https://arxiv.org/abs/2009.14332

  发表刊物:IJCAI 2021

  Motivation: 目前基于注意力机制的图神经网络中的Attention仅局限于直接邻居,因此每一层的感受域只局限在单跳结构中,学习多跳结构信息需叠加更多的层数,然而更多层数通常会带来过平滑问题(Over-smoothing Problem)。同时这些Attention的计算只与节点表示本身有关,并没有考虑到图结构的上下文信息,而将多跳近邻结构化信息考虑到图神经网络的注意力计算很少被研究。

  Solution: 本论文提出一种基于多跳注意力机制的图神经网络模型(MAGNA),包括图注意力扩散模块, 深层Feed Forward聚合模块,Layer Normalization以及残差链接,基于图扩散(Graph Diffusion)的注意力计算,能够在单层图神经网络中具有多跳结构的感受域。同时给出了基于谱特征分析,证明多跳diffusion attention相比单跳attention具有更好的图结构学习能力。

  

  Experimental Result:本论文提出的模型,在半监督图节点分类问题以及知识图谱补全任务上均取得SOTA的性能,同时能够解决深层图神经网络通常出现的过平滑问题。

  Impact: 基于图扩散注意力计算是将稀疏图信息和自注意力计算统一到一个模型中的关键步骤,在避免过拟合的同时提高了模型性能,并且只引入了常数因子的训练时间开销。自注意力机制在序列(如NLP)数据上取得巨大成功,而基于图扩散的注意力机制在计算任何两点之间的注意力的同时兼顾到结构信息。因此,本论文提出的模型有利于统一序列数据和图结构数据学习或者设计新的算法在考虑结构化信息的同时进行序列分析(如将语法树信息融合进文本情感分析/利用Diffusion Attention方法实现稀疏化Transformer)。

  论文标题:Incremental Learning for End-to-End Automatic Speech Recognition

  论文链接:https://arxiv.org/abs/2005.04288v3

  发表刊物:ASRU 2021

  Motivation: 语音识别增量学习旨在保留模型原有识别能力的同时,提高其在新场景下的语音识别能力,具有广泛的应用价值。然而,在模型原始训练数据因隐私、存储等问题而不再可用的情况下,语音识别模型在增量学习过程中往往面临“灾难性遗忘”。

  Solution: 本论文提出了一种新的基于模型可解释性的知识蒸馏方法,并将其与基于模型输出响应的知识蒸馏方法相结合,以使得在仅采用新场景数据进行语音识别增量学习的过程中,保留原模型的输出结果和得到该输出结果的“原因”,从而有效抑制模型对原有知识的遗忘。

  

  Experimental Result:在开源数据集和实际应用场景数据集上的增量学习实验结果表明,在抑制模型对原有知识的遗忘方面,本论文方法显著优于现有方法。本论文提出的方法在无需访问模型原始训练数据的条件下,仅利用原模型和新场景的语音数据进行增量训练,能够在让模型快速适应新任务场景(如新口音、新术语、新声学环境等)的同时,保留模型原有的识别性能。

  论文标题:Learning to Compose Stylistic Calligraphy Artwork with Emotions

  发表刊物:ACM Multimedia 2021 (Oral)

  Motivation:情绪在书法创作中发挥了非常重要的作用,它让书法作品更加有艺术性和感染力。之前的工作忽略了情感在书法创作中的重要性,并且局限于单字书法的图像生成,没有考虑篇章布局。在这篇文章中,我们提出了一种情绪驱动的、篇章级的书法生成框架。

  Solution:我们的模型可以从输入文本中检测用户情感,基于生成对抗网络生成字级别书法图片,最后基于循环神经网络预测书法篇章布局,合成具有艺术性的风格化书法作品。该研究是业界第一篇基于情绪的、篇章级的风格化书法生成工作。

  

  Experimental Result:实验显示,我们提出的模型相比之前书法生成模型和图像风格转换模型,在真实书法数据集上可以获得更好的内容正确性和风格一致性。人工评估的结果也显示我们提出的模型生成的书法作品更具有艺术性。此外,本文提出的图像风格迁移算法还可以广泛应用到计算机视觉的图像生成任务中,包括个性化广告图片生成、图片特效滤镜等应用场景。

  技术的创新发展与应用,有效推动了产业数字化、智能化的发展进程,而要实现更高层次的创新发展,离不开人工智能的坚实助力。本次8篇论文在国际学术会议中发表,是京东云在人工智能领域集中爆发的重要体现。未来,京东云将继续沿着以AI推动产业数字化的方向,加快推进产学研用一体化应用,构筑“技术+场景”的创新应用新生态,在世界舞台上彰显中国企业的技术实力。

关键词阅读:京东 云语音

责任编辑:史文瑞 RF13549
精彩推荐
加载更多
全部评论
金融界App
金融界微博
金融界公众号