期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈鑫李伟康洪宇周夏冰张民《中文信息学报》2019,33(10):99

问句复述识别旨在识别两个自然问句是否语义一致。目前,基于表示学习和深度神经网络架构的复述识别技术已取得较好效果。但是,这类方法往往面临复杂度较高且训练难度较大的瓶颈。针对这一问题,该文提出一种快速的多卷积自交互匹配方法。该方法融合了多种句子特征和词义特征,并由此形成分布式表示。在此基础上,这一方法利用卷积神经网络获取短语级的句子向量表示,并利用自交互融合技术将词级与短语级的向量表示进行充分融合,借以获得多粒度句子向量表示。该文将这一方法应用于判定自然语句是否互为复述的二元分类任务中,利用Quora标准问句复述识别语料进行测试。实验结果证明,在不引入外部数据的情况下,该文所提方法与基于双向多视角匹配的基准模型具有可比的性能,但在空间复杂度上具有较高的优越性,并且获得更快训练速度。具体地,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。相似文献

2.

面向问题复述识别的定向数据增强方法

朱鸿雨金志凌洪宇苏玉兰张民《中文信息学报》2022,36(9):38-45

问题复述识别旨在召回“同质异构”的问句对子(语义相同表述迥异的问句)和摒弃语义无关的噪声问句,对输入的问句对进行“是复述”和“非复述”的二相判别。现有预训练语言模型(如BERT、RoBERTa和MacBERT)被广泛应用于自然语言的语义编码,并取得了显著的性能优势。然而,其优势并未在问句复述问题的求解中得到充分的体现,原因在于: ①预训练语言模型对特定任务中精细的语义表示需求并不敏感; ②复述样本的“是与非”往往取决于极为微妙的语义差异。微调预训练语言模型成为提高其任务适应性的关键步骤,但其极大地依赖训练数据的数量(多样性)与质量(可靠性)。为此,该文提出一种基于生成模型的定向数据增强方法(DDA)。该方法能够利用诱导标签对神经生成网络进行引导,借以自动生成多样的复述和非复述的增强样本(即高迷惑性的异构样本),促进训练数据的自动扩展。此外,该文设计了一种多模型集成的标签投票机制,并用其修正增强样本的潜在标签错误,以此提高扩展数据的可靠性。在中文问题复述数据集LCQMC上的实验结果证明,与传统数据增强方法相比,该文方法生成的样本质量更高,且语义表达更加多元化。相似文献

3.

基于语义角色标注的新闻领域复述句识别方法

吴晓锋宗成庆《中文信息学报》2010,24(5):3-10

复述(Paraphrase)句的识别可看作文本蕴含(Text Entailment)识别的一个子问题,传统的解决方法是通过词频或句法上的相似度来判断。即使用相同的文字书写的句子其含义也可能差别很大,而相同句法结构也不能保证意义一致。该文根据新闻语料的特点,提出了一种通过引入深层的语义角色标注来帮助识别新闻领域复述句的方法。该方法通过在语义角色这种结构化的含义表达形式中提取的特征来弥补传统方法的不足先识别待判断的两个句子中所有谓词的语义角色,然后计算两个句子间对应语义角色的相似度,最后结合传统的句子相似度计算方法来进行相似性计算。实验证明,该文提出的方法能有效地提高复述语句的识别效果。相似文献

4.

面向知识库问答中复述问句评分的词向量构建方法^*

詹晨迪凌震华戴礼荣《模式识别与人工智能》2016,29(9):825-831

传统的词向量构建方法基于句子内部单词间的共现概率,采用与具体任务无关的无监督训练方法实现。文中提出基于复述关系约束的词向量构建方法,用于改进知识库问答中基于词向量和词袋模型的复述问句评分。首先从复述问句库中按一定规则收集得到满足复述关系的问句对和不满足复述关系的问句对,以问句对之间的相似度不等式表示句子级的语义约束信息,再将该不等式作为约束项加入词向量训练的目标函数中。实验表明,相比传统词向量构建方法,文中方法可以提高问句间复述关系评价的准确度及知识库问答系统中问题回答的准确度。相似文献

5.

专有名词增强的复述生成方法研究

张雪陈钰枫徐金安田凤占《计算机工程》2024,(3):98-105

现有的中文复述生成模型在对包含专有名词的原句生成复述句时经常丢失原句中的专有名词,造成复述句的语义偏移,降低复述句的可用性,进而影响其在下游任务中的应用效果。为了解决这类问题,提出专有名词增强的复述生成方法。针对包含单个专有名词的原句构建基于占位符的复述生成模型,通过将训练句对中的专有名词用占位符替换,训练模型对占位符的保留能力;针对包含多个专有名词的原句构建词汇约束的复述生成模型,通过将专有名词列表与原句拼接并进行区分,训练模型对多个专有名词的识别和复制能力,提高复述句对专有名词的保留率。此外,综合考虑语义一致性和表达多样性,提出参考句无关的复述句质量评价指标用来评估生成复述句的质量。以真实对话系统业务中的意图识别冷启动任务为下游任务,对比不同模型生成复述句的质量以及在意图识别任务上的准确率。实验结果表明,词汇约束的复述生成模型能够生成与原句语义一致且表达具有多样性的高质量复述语料,对应语料训练得到的意图识别模型准确率最高,相较于未考虑专有名词的复述模型,意图识别模型的准确率提高了5.38%。相似文献

6.

基于语义空间距离的相似问句识别方法研究

苏玉兰陈鑫洪宇朱朦朦张民《中文信息学报》2021,35(12):36-46

前沿相关研究将相似问句识别转化为二元问句匹配识别并取得很大进展.但是在自动问答系统的实际应用场景中存在大量数据,这些方法受限于二元问句匹配识别模式,导致时效性不高.针对这一问题,受人脸识别相关研究的启发,该文提出基于语义空间距离衡量的相似问句识别方法(Semantic Space Distance Method,SSD... 相似文献

7.

基于领域知识融合的复述识别方法研究

李志峰白岩洪宇刘东朱朦朦《中文信息学报》2023,(3):18-26

复述识别任务,即判断两个句子是否表达相同的语义。传统的复述识别任务针对的是通用领域,模型通过理解两个句子的语义,比较句子的语义相似度从而进行复述判断。而在特定领域的复述识别任务中,模型必须结合该领域的专业知识,才能准确地理解两个句子的语义,并进一步判断出它们的区别与联系。该文针对特定领域提出了一种基于领域知识融合的复述识别方法。方法首先为句子检索专业知识,再将专业知识融入到每个句子的语义中,最后实现更准确的语义相似度判断。该文在计算机科学领域的复述识别数据集PARADE上进行了相关实验,实验结果显示,该文方法在F₁指标上达到了73.9,比基线方法提升了3.1。相似文献

8.

面向中文电子病历的多粒度医疗实体识别

周晓进徐陈铭阮彤《计算机科学》2021,48(4):237-242

在现有的面向中文临床电子病历的命名实体识别任务中,实体标注粒度通常过细或过粗,过细的标注结果难以找到实际应用场景,而过粗的标注结果通常需要在进行复杂的处理后,才能明确实体的规范形式和语义类型,以便于后续的数据挖掘应用.为简化处理步骤,根据常见的7类粗粒度临床实体的特点,定义了用以解释粗粒度实体的9类细粒度解析实体.同时... 相似文献

9.

回溯正则化分段正交匹配追踪算法

李燕王耀力《计算机应用》2016,36(12):3398-3401

针对分段正交匹配追踪（StOMP）算法对信号重构效果较差的问题,提出一种回溯正则化分段正交匹配追踪（BR-StOMP）算法。首先,该算法采用正则化思想选取能量较大的原子,以减少阈值阶段候选集中的原子;然后,利用回溯对原子进行检验,并对解的支撑集中的原子重新筛选一次,同时删除对解的贡献较低的原子,提高算法的重构率;最后,对感知矩阵进行归一化处理,使算法更加简单。仿真结果表明：BR-StOMP算法与正交匹配追踪（OMP）算法相比较峰值信噪比提高8%~10%左右,运行时间减少70%~80%;与StOMP算法相比较,峰值信噪比提高19%~35%。BR-StOMP算法能够精确地恢复信号,重建效果优于OMP算法和StOMP算法。相似文献

10.

细长矩阵的块正交化方法

下载免费PDF全文

宋君强龚西平张理论赵文涛吴建平《计算机工程与科学》2010,32(4):90-92

本文提出了一种与经典格拉姆-施密特正交化方法得到相同理论结果的细长矩阵的正交化方法。该方法在增加部分冗余计算的情况下,将经典格拉姆-施密特正交化方法中的向量内积计算转换为可同时计算,使之更适合于并行计算。数值实验表明,该方法是正确的。相似文献

11.

复述检测技术综述

下载免费PDF全文

李铂鑫李鹏齐保元王斌王丽宏《信息安全学报》2020,5(5):95-109

网络内容安全日益受到各界的关注。自然语言处理中用于判断两个文本语义是否相同的复述检测技术,可以把语义相同表述形式不同的的看法、意见等聚成一类,大幅提高舆情监控的效率;亦可识别出经过改写的不良敏感信息,有效提高不良敏感信息的召回率。本文旨在介绍当前复述检测技术领域的研究进展。首先介绍复述检测的概念、应用场景和研究现状。然后对复述检测方法进行分类,本文从计算方式上将复述检测方法分为基于相似度的方法和基于特征的方法,依次介绍每类方法的特点、优缺点,并详述一些有代表性的方法,重点介绍了基于深度学习的复述检测方法。最后详细分析了复述检测技术当前存在的问题,并对未来的发展趋势进行了展望。相似文献

12.

基于外部记忆单元和语义角色知识的文本复述判别模型

李天时李琦王文辉常宝宝《中文信息学报》2017,31(6):33-40

文本复述判别是一个重要的句子级语义理解应用。该文提出了一个轻量级的基于记忆单元的单层循环神经网络模型,并结合语义角色标注知识帮助进行英文文本复述判别。使用单层的循环网络模型减缓由于网络层数过多加重的梯度消失和梯度爆炸问题,易于训练;并且利用外部记忆单元和语义角色知识帮助存储两句话中不同层级的语义联系。该文模型在英文评测语料Microsoft Research Paraphrase Corpus测试集上F值为84.3%。实验表明,语义角色标注知识确实可以帮助文本复述判别,并且轻量级模型达到了与同类多层次网络模型相近的效果。相似文献

13.

语用视角下复述句生成方式的类型考察

马天欢《中文信息学报》2021,35(10):32-38

该文将汉语母语者的160份复述文本与其原文进行以小句为单位的逐句比对,发现其中出现了6 484对复述句对。从其生成的方式来看,可以分为改换词语和重铸整句两大类。以语用学原理对这些复述句进行分析,发现与以往研究的复述现象不同的是: 句对间往往不具有相同的逻辑语义真值,但在特定语境下却能传达同一个语用意义,具有等效的语用功能。这说明在自然语言处理中,识别进入真实交际中的复述句不仅依赖语法、语义知识库,还需要借助含有语用知识和语境信息的知识库。相似文献

14.

基于正交小波网络的非线性系统辨识

吕学芳顾海明宫会丽《微计算机信息》2003,19(7):16-16,85

本文介绍了一种基于正交小波网络(OWN)的非线性系统的辨识方法。阐述了正交小波网络理论，提供了用正交小波网络进行辨识的方法．并对高炉煤粉喷吹系统的非线性系统进行了动态辨识，结果表明此方法是可行的。相似文献

15.

基于语言特征自动获取的反问句识别方法

李旸吴卓嘉王素格梁吉业《中文信息学报》2020,34(2):96-104

反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。相似文献

16.

基于新息估计和正交投影的闭环子空间模型辨识

侯杰刘涛《自动化学报》2016,42(11):1657-1663

针对闭环控制系统提出一种基于新息估计和正交投影的闭环子空间模型辨识方法.首先采用最小二乘法对VARX模型（Vector autoregressive with exogenous inputs model）进行计算得到新息估计值,然后通过将由观测输入输出数据构造的Hankel矩阵正交投影到新息数据的正交补空间以消除噪声影响,从而在无噪声的输入输出数据奇偶空间中提取得到扩展可观测矩阵和下三角形Toeplitz矩阵.最后采用平移变换法得到系统矩阵.对该算法严格分析和证明了实现一致估计的条件.通过仿真实例验证了本文方法的有效性和优越性. 相似文献

17.

改进的基于树型搜索的正交匹配追踪算法

张玉峰《数字社区&智能家居》2007,3(14):534-536

正交匹配追踪算法(OMP)是一种利用一个超完备的字典进行信号分解的非线性自适应算法.文献[2]提出了基于树型搜索的正交匹配追踪算法(TB-OMP),尽管TB-OMP算法能够改进向量的逼近性能,但使计算的复杂度成指数倍的增加,严重限制了该算法在许多领域里的应用.在本文中将介绍一种灵活的基于树型搜索的正交匹配追踪算法(FTB-OMP)[5],算法通过设置参数,能够在算法逼近性能和计算复杂度之间找到一个灵活的折衷方案. 相似文献