首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
目前文本水印算法多基于文本外在特征,很少利用文本内容上的内在关联性,通过对文本句子的主语和宾语进行指代冗余分析,构造用于嵌入水印的指代冗余矩阵,再根据水印信息和矩阵编码规则确定指代冗余矩阵修改位置,利用实体状态编码和状态转移操作修改原文本完成水印嵌入。该算法可以抵抗格式变换、同义词替换等攻击,具有较低的文本修改率和较好的鲁棒性。  相似文献   

2.
针对现有相似实体搜索方法缺乏对于观测序列长度的自适应性,且搜索过程数据存储开销过大,搜索结果准确性较低的问题,该文提出相似度自适应估计的物联网实体高效搜索方法(SAEES)。首先,设计了轻量级观测序列分段表示方法,对传感器采集的实体原始观测序列进行轻量级分段压缩表示,以降低实体观测序列的存储开销。然后,提出了观测序列相似度自适应估计方法,实现对不同观测序列长度的实体相似性的准确估计。最后,设计了高效的相似实体搜索匹配方法,依据所估计的实体相似度进行实体的准确搜索匹配。仿真结果表明,所提方法可大幅提高相似实体搜索的效率。  相似文献   

3.
提出基于ERNIE序列标注的地址分级模型进行地址提取识别,将地址分级问题转换为一个序列标注的NLP问题。首先将原始待分级地址文本输入到训练好的ERNIE命名实体识别算法训练模型中,得到11级地址的粗略分级;然后应用AC自动机算法,对地址的前5级地址进行补全或纠正,再通过正则化匹配对地址后4级进行纠正。提出的模型不仅可以提高地址解析的准确率,还可以对错误地址进行纠正,最后将模型用于真实数据集,验证了方法的有效性。  相似文献   

4.
缺陷数据分析正成为软件工程领域的热点,现有缺陷分析技术无法有效处理复杂和冗余的缺陷数据,以高效地辅助缺陷修复工作.本文提出一种多特征匹配搜索算法——MMSBK(Multi-feature Matching Search Algorithm for Bug Knowledge).首先对缺陷问题进行分析,抽取其包含的缺陷实体及关系;然后,基于实体和关系匹配将缺陷问题与缺陷知识图谱关联,通过知识图谱的关联性和可视化帮助软件开发搜索缺陷知识;最后,基于匹配算法生成的缺陷关系三元组生成搜索结果子图.实验验证了MMSBK算法的有效性.  相似文献   

5.
数据ETL过程中的实体识别方法   总被引:1,自引:1,他引:0  
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、96.5%,能够满足工程应用的要求。  相似文献   

6.
数据ETL过程中的实体识别方法   总被引:3,自引:0,他引:3  
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。  相似文献   

7.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

8.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

9.
命名实体识别与共指消解均依赖于对实体相邻文本信息的学习,本文提出一种基于混合神经网络的命名实体识别与共指消解联合模型,共用双向长短时记忆模型LSTM编码层对输入序列中每个词前后方向上下文信息进行编码,并通过训练学习得到上下文信息传递到前馈神经网络FFNN模型以提高共指消解精度,通过将领域文档及篇章语义向量加入FFNN,改进共指消解算法并优化共指消解模型.基于领域文本数据集进行联合模型训练,实验结果表明该联合模型可以有效地提高共指消解精度.  相似文献   

10.
针对传统关联分析技术应用于网页文本分析上存在的问题,提出一种基于命名实体及实体关系的网页文本关联分析方法.该方法以命名实体和实体关系作为特征来代替传统高频词,首先采用基于向量相似度比较的修正策略来提取网页文本中的命名实体,然后分析Maxfpminer算法并对其进行改进,利用改进的Maxfpminer算法对网页文本进行关联分析.实验结果表明,该方法分析得到的知识模式的有效性和可读性均优于传统方法.  相似文献   

11.
随着互联网技术的快速发展,人类已经习惯于从网络上获取知识,然而伴随着网络资源爆炸式增长,网络资源内容多样,人们使用浏览器获取知识的方法却停滞不前,因此需要一种工具来帮助人们从网络中高效地获取和发现新知识.由于网络资源文本并不是完全结构化的数据,还包括一些自由文本等复杂的无结构数据,这种文本信息虽然方便人们自由表达概念以及事件等,但是同时也为机器搜索、统计分析等制造了障碍.因此,为了在文本上更方便地进行知识分析和挖掘,本文提出一种基于深度学习的算法知识实体识别与发现的方法,应用于算法知识领域来解决上述问题.通过创建算法知识专家库[1],训练词向量,建立深度神经网络模型,从算法知识文本中识别和发现算法知识名称.实验结果表明,该深度神经网络模型识别算法知识的准确率高达98%,并有效发现了专家库以外的新知识点,实现了预期实验需求.  相似文献   

12.
余旺盛  田孝华  侯志强  黄安奇  刘翔 《电子学报》2014,42(11):2150-2156
针对视觉跟踪中目标表观的复杂变化问题,提出了一种基于关键区域特征匹配的鲁棒跟踪算法.首先对目标模板进行初始化并通过滤波预测得到目标候选;然后采用自适应标记分水岭算法对目标模板和目标候选进行分割以提取关键区域,并利用像素的空间和频率分布特性对关键区域进行多重特征描述;最后通过关键区域的特征匹配得到目标模板与目标候选的匹配关系,由此确定最终跟踪结果并进行模板更新.对目标发生尺度、遮挡、旋转、光照、姿态、复杂背景以及运动模糊等变化的视频序列进行了仿真测试.实验结果表明,所提算法能够有效处理目标表观的复杂变化问题,尤其对目标的部分遮挡、光照变化以及复杂背景等具有较强的鲁棒性.  相似文献   

13.
针对关联规则挖掘中经典Apriori算法由于多次扫描数据、产生大量候选集及产生候选集时连接次数多等缺陷,导致效率较低。文中提出删除部分特殊事务,减少扫描数据次数。在生成候选k-项集前,对频繁k-1项集进行约简,减少连接次数和候选k-项集数,对Apriori算法进行改进。并将改进的Apriori算法用于试题分析中,得出试题之间的关联关系。实例表明,改进后的算法在效率上优于Apriori算法。  相似文献   

14.
传统的基于实例的音频检索算法采用顺序索引,检索时需遍历数据库并导致难以忍受的等待时间。针对传统的顺序的索引方法,该文提出基于倒排索引的音频检索算法。该方法首先利用多种音频特征构成的超向量,通过多层音频分割方法将连续音频流分割为特征数值波动幅度小的短时音频段;然后利用事先训练好的音频字典,将短时音频段序列转换为可以表征音频内容的音频字序列,并建立倒排索引;检索时,将用户提交的查询转换为音频字后利用倒排索引无须遍历数据库即可直接定位候选段落,并根据候选段落与查询的内容相似度大小对候选段落进行排序,将排好序的列表作为检索结果。仿真实验以匹配项排名、同类检索结果比例、定位准确性和检索用时4个方面作为评价指标,实验结果显示,该算法能够在平均1.101 s时间内实现92.58%的检索准确率。  相似文献   

15.
基于双词主题模型的半监督实体消歧方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
张雄  陈福才  黄瑞阳 《电子学报》2018,46(3):607-613
针对实体上下文信息主题漂移的问题,提出一种基于双词主题模型的实体消歧方法.方法考虑到实体在一定语义环境下具有不同的主题,且在同一文档中同时出现的其他实体在一定程度上能够帮助待消歧实体确定所指代内容,利用命名实体构建双词的思想,将协同实体关系融合到主题模型中,并在此基础上利用维基百科知识库,进行半监督消歧.本文最后在网络文本数据上进行了相关的实验,验证了所提算法的有效性.实验表明该方法有效的提高了实体消歧精度.  相似文献   

16.
实体关系抽取能够从文本中提取事实三元组信息,这对于构建大规模的知识图谱是十分重要的。在现有的研究中,通常以先进行实体识别,而后进行关系分类或者进行统一标注的方式来完成这一任务,虽然这些方法能够使关系抽取任务变得更易实现,并且模型的网络框架灵活性更高,但是也存在误差积累和暴露误差等问题,且对于关系抽取中的关系重叠和实体嵌套等重难点问题不能够很好的处理。为了解决上述存在的问题,文章构建一种基于深度学习的中文实体关系联合抽取模型。该模型由基于评分的分类器和特定关系的角标记策略以及分区过滤网络构成,首先通过分区过滤网络,将输入的文本划分成三个分区,实体分区和关系分区以及共享分区,能够确保实体识别任务和关系抽取任务进行更好的双向交互;接着应用特定关系的角标记策略来解码实体信息,最后通过一个基于评分的分类器来输出事实关系三元组。实验表明,提出的方法能够改善传统方法带来的误差积累和交互缺失以及实体冗余等问题,提高了三元组抽取的准确率。  相似文献   

17.
在视觉同时定位与地图构建(visual-simultaneous localization and mapping)中,当前常见的特征提取与匹配算法存在特征分布不均匀以及错误匹配等问题,严重影响SLAM的性能。首先,在ORB特征提取的基础上,提出一种融合四叉树分布策略的改进特征提取与匹配算法,对上述问题的解决给出了新思路。然后,在特征提取阶段,使用四叉树分布筛选高质量特征点,将图像划分成多个非重叠的方形网格,利用基于图像窗格划分的误匹配剔除方法提高匹配正确率。最后,选取TUM室内图像数据,将所提出的算法与原始ORB算法、BRISK算法进行比较,验证了算法的实时性和有效性。同时针对视觉SLAM过程中可能存在的图像尺度及旋转变换问题,选用Mikolajczyk图像数据集中,不同场景序列图像的第一幅与第二幅图像进行特征提取与匹配实验。结果表明,所提出的算法在应对尺度及旋转变换场景具有一定适用性。  相似文献   

18.
针对通用领域的命名实体识别(Named Entity Recognition, NER)模型在红色文化的实体识别中难以完整准确地进行实体划分的问题,提出了一种基于双向长短期记忆(Bi-directional Long Short-Term Memory, BiLSTM)网络模型结合词汇增强和注意力机制方法的改进算法红色学习双向长短期记忆(Red Learing BiLSTM,RLBiLSTM)网络,用于红色文化的NER。对红色文化数据集中的重要词汇进行数据处理,构建一个包含红色文化特征的词表,将词表信息与BERT底层信息进行融合。使用BiLSTM网络和注意力机制考虑上下文和全局信息,并利用条件随机场进行实体识别。实验表明,将改进的算法应用于RedCulture-1数据集上取得了较好的识别效果,和传统的算法相比具有更高的准确率,有利于解决红色文化的实体识别问题。  相似文献   

19.
本文在Chun—HaoChen等人的基础上,将模糊频繁趋势挖掘转换为序列模式挖掘并利用序列模式挖掘中的GSP算法生成候选序列模式并进行剪枝,能够更有效减少候选序列模式数量,从而高效的挖掘模糊频繁趋势,提高算法的效率。  相似文献   

20.
何文龙  高长丰  黎塔  刘建 《信号处理》2021,37(5):893-901
为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法。通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更加逼近文本特征序列的分布。引入了Wasserstein GAN(WGAN)来计算语音特征序列和文本特征序列通过判别器的标量似然值的Earth-Mover(EM)距离,来解决语音特征序列和文本特征序列存在长度不一致的问题。整个模型遵从多任务学习和对抗学习的训练准则,本文在How2数据集上和MuST-C英中数据集上验证了本文提出算法的有效性,该方法可以显著提升翻译质量。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号