湖北快3全天一期一计划必中

一种多模态的智能问答系统及方法

文档序号:9810660
一种多模态的智能问答系统及方法
【技术领域】
[0001] 本发明涉及计算机智能问答技术领域,尤其涉及一种多模态的智能问答系统及方 法。
【背景技术】
[0002] 近年来,随着自然语言处理技术的发展,智能问答系统受到了极大的关注,出现了 微软小冰、讯飞语点等公众网络应答机器人及中科微喂等企业级智能问答系统。一个优质 的问答系统可以解决客户常见的问题,降低人工开销,并能提供24小时无间断服务。
[0003] 随着大数据与人工智能的发展,问答系统对于智能化的需求越来越明显,尤其是 在智能问答系统中多模态信息的查询和直观展示。多模态的智能问答系统,可以允许用户 进行多媒体信息的查询,包括图片、音频、视频、图片加文本和视频加本文等信息,从而满足 用户多媒体输入的需求,提高用户信息查询的丰富性。同时,它也支持答案的多媒体形式的 展示,利用丰富的媒体形式,对用户提出的问题给出一个准确和形象的答案。
[0004] 智能问答技术(Question Answering,QA)是综合运用了自然语言处理、信息检索、 语义分析、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同,自动问答 系统以自然语言句子提问,系统分析并理解用户的问题,返回用户想要的答案。问答系统能 给用户提供更加精确的信息服务,用户不需要阅读搜索引擎返回的文档列表去查找答案, 从而提高了效率。当前,智能问答系统的研究仍旧集中在文本信息的交互上,问题和答案的 呈现模式都是文本信息。基于文本的智能问答系统主要的技术为:自然语言处理、信息检 索、知识表示、语义理解等技术。通常分为文本预处理,文本分析、答案选择等模块,在文本 分析模块主要是对文本信息进行问题分类、关键词提取和关键词拓展,从而判断出用户的 问答意向,然后通过信息检索模块找到对应的文本答案。
[0005] 然而,随着互联网及移动互联网的快速发展,多媒体信息量的急剧增长,对于智能 问答系统在信息的多模态、直观性和丰富性上提出了更高的要求,基于文本的智能问答新 系统无法满足目前多媒体问答的需求。传统基于文本智能问答系统主要存在以下问题:
[0006] 1、无法满足用户对多模态信息的查询,只能以单一的文本信息进行交互;
[0007] 2、问答系统的答案的呈现模式为文本模式,展示方式不够直观形象,缺乏多媒体 形式的展示;
[0008] 3、缺乏多模态处理的流程和模式,不能满足智能问答系统的可扩展性。
[0009]以上的原因阻碍着问答系统智能化的发展,无法满足多媒体形式下的智能问答系 统的需求。

【发明内容】

[0010] 为了解决上述技术问题,本发明提出了一种多模态的智能问答系统及方法,旨在 解决用户的多模态信息的输入和处理分析,提高用户问答的体验,增强问答系统的智能化。
[0011] 本发明的系统包括:
[0012] 多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包 括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本 图片视频组合信息;
[0013] 分类模块,用于根据输入模块和编码格式对输入的信息进行分类,分类后的信息 类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图 片视频组合信息;其中,语音信息被转换为文本信息;
[0014] 映射模块,用于将分类后的信息分别映射到相应的向量空间;文本图片组合信息、 文本视频组合信息和文本图片视频组合信息被拆分为文本信息、图片信息和视频信息分别 处理;
[0015] 答复生成模块,用于对所述映射模块映射得到的向量空间进行转换分析后生成对 所述多模态信息问题的答复。
[0016] 进一步地,所述映射模块包括文本映射单元,图像映射单元和视频映射单元。
[0017] 所述文本映射单元用于根据循环神经网络将所述文本信息映射到文本向量空间。
[0018] 所述图片映射单元用于根据卷积神经网络提取图像特征,并将提取的特征映射到 图片向量空间。
[0019] 所述视频映射单元用于将所述视频信息转换为图像序列,根据卷积神经网络将所 述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量 空间映射为视频向量空间。
[0020] 所述答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。
[0021] 相应地,本发明还提供了一种多模态的智能问答方法,包括以下步骤:
[0022] S1、多接收用户输入的多模态信息问题,所述多模态信息包括文本信息、图片信 息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;
[0023] S2、对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信 息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;
[0024] S3、将分类后的信息分别映射到相应的向量空间;
[0025] S4、对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息 问题的答复。
[0026] 步骤S3进一步包括:根据循环神经网络将所述文本信息映射到文本向量空间。
[0027] 步骤S3进一步包括:根据卷积神经网络提取图像特征,并将提取的特征映射到图 片向量空间。
[0028] 步骤S3进一步包括:将所述视频信息转换为图像序列,根据卷积神经网络将所述 图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空 间映射为视频向量空间。
[0029] 步骤S4中的生成对所述多模态信息问题的答复包括生成用户输入问题的答案或 生成对用户输入问题的处理指令。
[0030] 本发明取得了以下技术效果:
[0031] 本发明的实现智能问答的系统和方法中由于用户可输入多模态信息问题,而用户 输入的多模态信息问题经过映射处理为统一的向量空间,最后根据统一的向量空间进行转 换分析后获取对应该多模态信息问题的精准的答案,即本发明对于多模态信息,无论是文 本、图片,视频及以上三种信息类型的任意组合均可统一进行处理,具有并行分布处理、高 度鲁棒性和容错能力、分布存储及学习能力、能充分逼近复杂的非线性关系等突出特点,从 而使得智能问答系统具备针对多模态信息的统一计算和处理能力,可以提高用户信息查询 的丰富性,提高了用户问答的体验,使问答系统更加智能化。
【附图说明】
[0032] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施 例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其它附图。
[0033] 图1是根据本发明的多模态智能问答系统的一种具体实施例框图;
[0034] 图2是根据图1中映射模块的一种具体实施例示意图;
[0035] 图3是根据图2中图片映射单元进行映射的工作原理图;
[0036] 图4是根据图2中视频映射单元进行映射的工作原理图;
[0037] 图5是一个具体实施例中包括文字、图片的一个多媒体信息问题的智能问题示意 图;
[0038] 图6是根据本发明实现智能问答的方法的一种具体实施例流程图。
【具体实施方式】
[0039]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其 他实施例,都属于本发明保护的范围。
[0040] 实施例:
[0041]参考图1,该图为根据本发明实现智能问答的系统的一种具体实施例框图,其包 括:
[0042] 多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包 括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本 图片视频组合信息;文本图片组合信息也可以写为文本+图片信息,文本视频组合信息也可 以写为文本+视频信息,文本图片视频组合信息也可以写为文本+图片+视频信息;
[0043] 分类模块,用于根据输入模块和编码格式对输入的信息进行分类,分类后的信息 类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图 片视频组合信息;其中,语音信息被转换为文本信息;
[0044] 映射模块,用于将分类后的信息分别映射到相应的向量空间;
[0045] 答复生成模块,用于对所述映射模块映射得到的向量空间进行转换分析后生成对 所述多模态信息问题的答复。
[0046] 上述实施例中,由于用户输入的多模态信息问题可以是各种形式的,因此,映射模 块对于不同的多模态信息也具有相应的功能模块并按照统一的架构去执行映射,参考图2, 映射模块包括文本映射单元、图像映射单元和视频映射单元。例如,所述多模态信息若为文 本信息,文本映射单元用于根据循环神经网络将所述文本信息映射为文本向量空间。
[0047]具体实现时,上述文本映射单元采用循环神经网络RNN进行句子向量表示,将文本 信息映射为文本向量空间,即将词映射到低维空间,例如,假设输入句子为x={xl,x2,··· xt. .xN},且xl是词,c(xl)表示xl词向量,即将词进行了低维空间的映射,具体映射时,可采 用如下的方式进行映射,例如,映射采用如下公式:
[0050] 上式中t表示问句中词的序列,既利用循环神经网络RNN将句子表示为其最后一个 输出fq(N
再多了解一些
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1