首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
赵猛  陈珂  寿黎但  伍赛  陈刚 《软件学报》2022,33(12):4727-4745
自然语言查询转SQL(NL2SQL)是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面,从而实现基于数据库的自然问答.复杂查询的NL2SQL是当前数据库学术界的研究热点,主流方法采用序列到序列(Seq2seq)的编解码方式对问题进行建模.然而,已有的工作大多基于英文场景,面向中文领域实际应用时,中文特殊的口语化表达导致复杂查询转化困难;此外,现有工作难以正确输出包含复杂计算表达式的查询子句.针对上述问题,提出一种树状模型取代序列表示,将复杂查询自顶向下分解为多叉树,树结点代表SQL的各组成元素,采用深度优先搜索来预测生成SQL语句.在Du SQL中文NL2SQL竞赛的两个官方测试集中,该方法分别取得了第1名和第2名的成绩,验证了其有效性.  相似文献   

2.
实体解析是数据集成、数据挖掘等技术中不可或缺的步骤,其具体任务是查找引用自同一真实世界的实体的数据记录.现有的方法多数是通过计算实体记录的属性相似度来评估是否为同一实体,由于该方法需要预先对齐记录属性,无法适应属性中token误放的情形,也不能有效利用跨属性中tokens的语义和结构信息,影响实体识别准确性.本文提出了一种采用主题异构图嵌入的token粒度的实体解析方法(THGE-ER).在token、属性和记录基础上,利用LDA模型为实体记录添加一个主题层级,并构建了一个由token、属性、记录和主题4类节点组成的主题异构图;采用区分节点类型的异构图嵌入表示方法,并将节点间的语义和结构信息嵌入到token层级的嵌入向量中;进一步结合多层次注意力机制,完成最终的实体解析决策.经过大量的实验证明,本文提出的方法表现出了良好的性能.  相似文献   

3.
自然语言转结构化查询语句(Natural Language to SQL,NL2SQL)是信息领域一个重要课题.目前前沿的NL2SQL工作都是针对英文数据集,而处理英文数据的方法直接应用到中文上往往难以取得很好的效果.本文首先对传统的SQLNet模型进行了改进,在其中融入了预训练模型,增强了其提取特征的能力;之后又分别对分类模型和条件值模型进行了改进:在分类模型中增加了LSTM进一步捕捉特征,在条件值模型中使用正则表达式等手段对特殊的条件子句进行了预处理.实验表明,本文对分类模型和条件值模型所做的改进都能有效提升模型的表达效果.  相似文献   

4.
针对蒙汉机器翻译中平行语料资源稀缺的问题,提出利用单语语料库对蒙汉机器翻译进行研究.由于利用单语语料库进行机器翻译的效果较差,故将基于自注意力机制预训练跨蒙汉语言模型应用于基于单语语料库训练的蒙汉机器翻译系统中.实验结果表明,基于自注意力机制预训练跨蒙汉语言模型的方法极大改善了蒙汉机器翻译系统的性能.  相似文献   

5.
BERT通过遮掩语言模型、下一句预测等自监督学习任务学习通用语言规律,在自然语言理解任务中取得了良好效果。但BERT的下一句预测任务不能直接建模句子的语义匹配关系,且随机遮掩策略也不能高效处理句子的关键内容。针对上述问题,该文提出基于动态词遮掩的预训练模型: 基于预训练模型获得句子的向量表示,并通过近似语义计算获取大规模“句子对”预训练数据,最后遮掩重要字词训练遮掩语言模型。在4个句子匹配数据集上的实验表明,使用该文提出的预训练方法,RBT3和BERT base的效果都有一定提升,平均准确率分别提升1.03%和0.61%。  相似文献   

6.
毕蓓  潘慧瑶  陈峰  隋京言  高扬  王耀君 《计算机应用》2021,41(12):3546-3550
社交媒体方便了人们的日常交流和信息传播,同时也是谣言滋生和传播的温床,因此如何在谣言传播早期自动监测极具现实意义,而现有的检测方法没有充分利用微博信息传播图的语义信息。为了解决这个问题,基于异构图注意力网络(HAN)构建了谣言监测模型MicroBlog-HAN。该模型采用含有节点级注意力和语义级注意力的分层注意力机制。首先,节点级注意力结合微博节点的邻居生成两组具有特定语义的节点嵌入;然后,语义级注意力融合不同语义,得到最终的节点嵌入,并输入到分类器中执行二分类任务;最后,给出输入微博是谣言还是非谣言的分类结果。在两个真实的微博谣言数据集上的实验结果表明,MicroBlog-HAN模型可以实现微博谣言较准确的识别,准确率超过87%。  相似文献   

7.
针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERT-PGN)。首先,利用BERT预训练语言模型结合多维语义特征获取词向量,从而得到更细粒度的文本上下文表示;然后,通过PGN模型,从词表或原文中抽取单词组成摘要;最后,结合coverage机制来减少重复内容的生成并获取最终的摘要结果。在2017年CCF国际自然语言处理与中文计算会议(NLPCC2017)单文档中文新闻摘要评测数据集上的实验结果表明,与PGN、伴随注意力机制的长短时记忆神经网络(LSTM-attention)等模型相比,结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分,生成的摘要内容更加丰富,全面且有效地减少重复、冗余内容的生成,Rouge-2和Rouge-4指标分别提升了1.5%和1.2%。  相似文献   

8.
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。  相似文献   

9.
机器翻译质量评估(QE)是在不依赖参考译文的条件下,自动对机器翻译译文进行评估。当前人工标注数据稀缺,使得神经QE模型在自动检测译文错误方面还存在较大问题。为了更好地利用规模庞大但却缺少人工标注信息的平行语料,该文提出一种基于平行语料的翻译知识迁移方案。首先采用跨语言预训练模型XLM-R构建神经质量评估基线系统,在此基础上提出三种预训练策略增强XLM-R的双语语义关联能力。该文方法在WMT 2017和WMT 2019的英德翻译质量评估数据集上都达到了最高性能。  相似文献   

10.
在自然语言相关系统中,当用户输入存在歧义时,生成澄清问题询问用户有助于系统理解用户需求;基于Prompt的方法可以更好地挖掘预训练语言模型的潜在知识,但往往需要手动设计模板,限制其生成澄清问题的多样性。为解决这一问题,提出了TSCQG(two-stage clarification question generation)方法。首先,在动态Prompt模板生成阶段,利用歧义上下文和预训练语言模型生成动态的Prompt模板;然后在缺失信息生成阶段,将Prompt模板与外部知识相结合,充分利用预训练语言模型的生成能力生成相应的缺失信息。实验结果表明,在CLAQUA数据集的多轮对话情况中,BLEU值和ROUGE-L值分别达到了58.31和84.33,在ClariQ-FKw数据集上,BLEU值和ROUGE-L值分别达到了31.18和58.86。实验结果证明了TSCQG方法在澄清问题生成任务上的有效性。  相似文献   

11.
自然语言转为SQL (NL2SQL)的研究有较高的应用价值, 随着深度学习技术的成熟, 越来越多的研究者开始将深度学习技术应用于NL2SQL任务中. 本文梳理了英文和中文领域NL2SQL的研究现状, 总结按年份发布的数据集和模型, 对比当前4大中文NL2SQL数据集的特点, 阐述了当前基于深度学习的NL2SQL任务的基本框架以及针对中文领域的单表简单问题和跨表复杂问题所适用的典型模型, 介绍了一般常用的模型评测方法, 并提出未来研究方向的展望.  相似文献   

12.
基于LINQ的多源异构数据查询中间件   总被引:1,自引:0,他引:1       下载免费PDF全文
针对信息安全开发与研究工作对多源异构数据查询的需求,分析网络安全数据源的数据结构特点,设计并实现一套多源异构数据查询中间件系统.系统应用并扩展LINQ技术,通过查询语句解析、名称映射、特定表达式目录树生成和结果集处理等步骤,实现透明查询,并且支持包括常用数据库、XML和JSON等格式在内的多种数据源,同时易于扩展和二次...  相似文献   

13.
图神经网络能够有效学习网络语义信息,在节点分类任务上取得了良好的效果.但仍面临挑战:如何充分利用异质网络丰富语义信息和全面结构信息使节点分类更精准.针对上述问题,提出了一种基于图卷积的异质网络节点分类框架(heterogeneous network node classification framework, HNNCF),包括异质网络约简和图卷积节点分类,解决异质网络节点分类问题.通过设计转换规则约简异质网络,将异质网络化简为语义化同质网络,利用节点间的关系表示保留异质网络多语义信息,降低网络结构建模复杂度;基于消息传递框架设计图卷积节点分类方法,在语义化同质网络上学习无1-sum约束的邻居权重等网络结构信息,深入挖掘关系语义特征,发现不同连接关系和邻居语义提取的差异性,生成节点的异质语义表示用于节点分类,识别节点类别标签.在3个公开的节点分类数据集上进行了实验,结果表明HNNCF能够充分利用异质网络多种语义信息,有效学习邻居节点权重等网络结构信息,提升节点分类效果.  相似文献   

14.
张启辰  王帅  李静梅 《软件学报》2024,35(4):1885-1898
口语理解(spoken language understanding, SLU)是面向任务的对话系统的核心组成部分,旨在提取用户查询的语义框架.在对话系统中,口语理解组件(SLU)负责识别用户的请求,并创建总结用户需求的语义框架, SLU通常包括两个子任务:意图检测(intent detection, ID)和槽位填充(slot filling, SF).意图检测是一个语义话语分类问题,在句子层面分析话语的语义;槽位填充是一个序列标注任务,在词级层面分析话语的语义.由于意图和槽之间的密切相关性,主流的工作采用联合模型来利用跨任务的共享知识.但是ID和SF是两个具有强相关性的不同任务,它们分别表征了话语的句级语义信息和词级信息,这意味着两个任务的信息是异构的,同时具有不同的粒度.提出一种用于联合意图检测和槽位填充的异构交互结构,采用自注意力和图注意力网络的联合形式充分地捕捉两个相关任务中异构信息的句级语义信息和词级信息之间的关系.不同于普通的同构结构,所提模型是一个包含不同类型节点和连接的异构图架构,因为异构图涉及更全面的信息和丰富的语义,同时可以更好地交互表征不同粒度节点之间的信息.此...  相似文献   

15.
研发药物的过程非常耗时且费用昂贵,以现有药物为基础确定和发展新的治疗效果有利于降低药物的开发成本。而以往的预测方法数据的要求单一,较少考虑到疾病药物相关数据的稀疏性,因此,该篇文章提出了一种基于异构图推断的疾病与药物相关性预测方法(Drug-disease relevant predicted by heterogeneous graph,DDRPGH)。该方法通过将药物相似性和疾病语义相似性与余弦相似性相结合,再通过WKNKN与已知的疾病与药物的关联融合到异构图中,揭示潜在的药物与疾病的关系。在两个数据集的十折交叉验证中,该方法AUC(F:0.923;C:0.939)优于另外三个对比方法,证明了这个方法在疾病与药物的预测方面是可行有效的。  相似文献   

16.
现有恶意软件相似性度量易受混淆技术影响,同时缺少恶意软件间复杂关系的表征能力,提出一种基于多重异质图的恶意软件相似性度量方法RG-MHPE (API relation graph enhanced multiple heterogeneous ProxEmbed)解决上述问题.方法首先利用恶意软件动静态特征构建多重异质图,然后提出基于关系路径的增强型邻近嵌入方法,解决邻近嵌入无法应用于多重异质图相似性度量的问题.此外,从MSDN网站的API文档中提取知识,构建API关系图,学习Windows API间的相似关系,有效减缓相似性度量模型老化速度.最后,通过对比实验验证所提方法RG-MHPE在相似性度量性能和模型抗老化能力等方面表现最好.  相似文献   

17.
谢德峰  吉建民 《计算机应用》2021,41(9):2489-2495
在自然语言处理(NLP)中,句法信息是完整句子中词汇与词汇之间的句法结构关系或者依存关系,是一种重要且有效的参考信息.语义解析任务是将自然语言语句直接转化成语义完整的、计算机可执行的语言.在以往的语义解析研究中,少有采用输入源的句法信息来提高端到端语义解析效率的工作.为了进一步提高端到端语义解析模型的准确率和效率,提出...  相似文献   

18.
基于知识图谱的问答方法旨在通过知识图谱的三元组检索和推断来对自然语言形式的问题进行解答.然而,现有中文知识图谱问答语料库存在规模较小,质量较差等问题,相关语料库构建方法亟待完善.因此,本文提出一种融合预训练模型的中文知识图谱问题生成方法,目标是以中文知识图谱三元组作为输入生成正确且多样的问题.该方法汲取了条件变分自编码...  相似文献   

19.
目前深度学习方法应用于图分类模型的重点集中在将卷积神经网络迁移到图数据领域,包括重定义卷积层和池化层。卷积操作泛化到图数据上是有效的方法,但无论是卷积还是池化都存在较大的改进空间,尤其是在提取网络拓扑结构信息方面。提出一种基于重构误差的同构图分类模型,一方面利用改进的同构图卷积网络WaveGIC增强提取拓扑结构信息能力;另一方面利用多重注意力机制表征全图,使得模型能够关注关键节点信息。由于网络加深过程,局部拓扑结构的特征表达越来越不明显。在分类损失基础上添加重构误差损失,使分类器同时考虑图的节点特征和拓扑结构。在基准数据集上的实验结果表明,提出的方法具有较高的图分类准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号