首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
语义标注是Deep Web数据集成系统中一个非常重要的模块,它是实体识别和结果合并这两模块的基础,语义标注的效果直接影响着整个Deep Web数据集成系统的结果。本文提出了在图书领域,利用本体对Web数据库查询结果通过属性值进行语义标注,通过对不同网站的测试,该方法具有较高的准确率和召回率。  相似文献   

2.
重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。 基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的。  相似文献   

3.
Deep Web指无法简单地通过搜索引擎或网络爬虫能够检索到的隐藏在后台数据库中,而往往这些内容具有丰富的信息和数据.获取Deep Web所蕴含的丰富信息的有效方法是构建Deep Web集成框架,而查询接口作为Deep Web的唯一访问接口,所以Deep Web集成系统的关键就是构建Deep Web集成接口.研究的目标是通过自动构建特定领域的本体来表示Deep Web接口信息,从而能够自动识别该领域Deep Web接口来建立索引,提取数据库中丰富的资源.在没有人为干预的情况下展开整个过程.本文的方法能完全自动地提取Deep Web接口信息并派生领域本体,并通过本体贝叶斯网络识别新Deep Web接口,进行匹配.在特定领域,通过一种新的自动从Deep Web接口中提取属性方法,通过WordNet构建成本体语义树,运用得到的领域语义本体树结合贝叶斯网络完成领域分类,并在分类后进行查询接口与集成接口的模式匹配.本文提出的方法通过对比人工提取属性构成的语义树在分类和模式匹配的结果进行对比,验证了该方法的可用性和适用性.  相似文献   

4.
基于双词主题模型的半监督实体消歧方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
张雄  陈福才  黄瑞阳 《电子学报》2018,46(3):607-613
针对实体上下文信息主题漂移的问题,提出一种基于双词主题模型的实体消歧方法.方法考虑到实体在一定语义环境下具有不同的主题,且在同一文档中同时出现的其他实体在一定程度上能够帮助待消歧实体确定所指代内容,利用命名实体构建双词的思想,将协同实体关系融合到主题模型中,并在此基础上利用维基百科知识库,进行半监督消歧.本文最后在网络文本数据上进行了相关的实验,验证了所提算法的有效性.实验表明该方法有效的提高了实体消歧精度.  相似文献   

5.
一种Deep Web数据源质量评估模型   总被引:3,自引:1,他引:2  
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.  相似文献   

6.
基于查询接口特征的Deep Web数据源自动分类   总被引:3,自引:0,他引:3  
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的.传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源.并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web数据源自动分类方法.并通过实验验证该方法是非常有效的。  相似文献   

7.
由于电力调度过程中存在大量重复性电力文本,导致语义识别结果形式与理想形式差距较大。针对该问题,提出了基于改进Bert-AutoML的电力文本语义识别算法。采用基于词块的粒度划分方式,提取电力文本字粒度语义特征。计算语义序列与命名实体数据库中语义的相似度,获取多个对应语义序列,构建电力文本语义识别模型。使用自动机器学习法训练模型文本输入,计算输入向量和电力文本库中向量匹配度。结合字符掩码训练策略,将掩盖的内容与背景相联系,得到最终语义识别结果。实验结果表明,该算法语义识别结果呈现段落-结构形式,排列整齐且简洁,与理想识别结果一致。  相似文献   

8.
叶俊民  罗达雄  陈曙 《电子学报》2021,49(2):401-407
文本中存在的表达冗余、词汇误用和内容缺失等错误会显著影响文本语义的理解,当前解决上述文本错误的纠错模型存在两个主要的问题:当前的文本纠错模型主要基于编码器-解码器框架,解码速度较慢;许多工作将错误检测和修正分离成两个任务,没有形成统一的整体.为此,提出了一种基于层次化修正框架的文本纠错模型.首先,基于预训练模型建模得到文本的多种语义表示;其次,利用文本的语义表示识别出文本中错误的位置;最后,利用层次化修正框架计算精化的修正操作并完成对错误的修正.针对公开文本纠错数据集CONLL-14进行了相关实验,结果表明本文模型比所选取的对比模型有更快的解码速度和更高的召回率.  相似文献   

9.
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.  相似文献   

10.
查询重写是数据库研究的一个基本问题,它和查询优化、物理数据的独立性维护、数据集成、数据仓库和决策支持等问题紧密相关。MiniCon算法是一种可伸缩的高效的重写算法,文章对它进行了深入研究。提出了一种基于域语义约束的MiniCon算法,解决了MiniCon算法中丢失查询重写或生成冗余查询重写的问题.提高了算法的正确性和完备性.  相似文献   

11.
为了提升deepsort多目标跟踪算法中的重识别模块性能,增强网络对图像特征的语义表达,优化算法在复杂场景中对目标身份一致性判断能力.提出OSA模块改进宽残差网络,并利用数据集对改进后的模型进行训练,获取相关数据及权重模型;研究改进网络与原网络在同一数据集下的模型训练效果,并与原重识别模块下的YOLOV3-deepso...  相似文献   

12.
<正>本文基于国网客服中心95598语音转文本数据,采用Ro BERTa语言模型对语句进行向量表示与特征提取,通过添加机制,模型可以关注与当前输出相关的信息,并获得文本中的潜在语义信息。通过对照组实验,本文构造的模型能够有效提高实体识别精准程度,且该模型在文本数据集上的抽取效果明显优于其他模型。命名实体识别(Named Entity Recognition,NER)获取有关子任务的信息,搜索分配给文本的对象,并将其分类到预定义的类别中。命名实体识别是自然语言处理中的热点研究方向之一,用于识别和分类文本中的相关实体的类别。命名实体识别的准确度,  相似文献   

13.
命名实体识别与共指消解均依赖于对实体相邻文本信息的学习,本文提出一种基于混合神经网络的命名实体识别与共指消解联合模型,共用双向长短时记忆模型LSTM编码层对输入序列中每个词前后方向上下文信息进行编码,并通过训练学习得到上下文信息传递到前馈神经网络FFNN模型以提高共指消解精度,通过将领域文档及篇章语义向量加入FFNN,改进共指消解算法并优化共指消解模型.基于领域文本数据集进行联合模型训练,实验结果表明该联合模型可以有效地提高共指消解精度.  相似文献   

14.
本文基于自然语言处理、语义相似度和实体识别等算法,构建了面向网络投诉工单的智能语义自动稽核系统,挖掘回单中自然语言的命名实体、事件和关系,通过特征提取、模型构建、语义泛化、匹配度计算等环节,输出质检所需的语义关键信息,实现对网络投诉工单传统质检方法的智能化提升。同时,设计和实施了一种投诉工单专家规则泛化词构建方法,实现对有限专家规则特征词的补充,提升语义质检的泛化性能。通过与传统关键字匹配算法进行比较,本方法在识别精准度方面效果更优,有效降低运营商投诉工单重派率,提升了客户满意度。  相似文献   

15.
无人机航行数据库中经纬度数据的高效查询,对无人机的飞行性能至关重要.提出基于人工免疫算法优化的无人机航行数据库经纬度数据优化查询模型.模型设置飞行数据的初始簇中心,对海量经纬度数据属性特征进行选取,计算不同的经纬度数据属性特征的相似性,并对上述特征进行实时聚类分析,每查询一次,完成数据属性特征的筛选,使得经纬度数据的特征永远是最新的,实现经纬度数据的高效查询.实验结果表明,利用该方法进行无人机航行数据库的经纬度数据查询,能够降低查询误差,对无人机性能的进一步提高有着重要的指导意义.  相似文献   

16.
针对电力现场作业、设备使用安全等大量文本采用非结构化的形式制定、存储,信息自动挖掘难以实现的问题,提出一种融合注意力机制与ALBERT-BiGRU-CRF的方法.首先将ALBERT作为文本的字向量语义编码层,其次多头注意力机制融合到BiGRU网络模型中作为字符实体信息标签预测层,最终CRF作为全局标签优化层.该方法能够准确捕获专业领域字符间的依赖权重、语境、上下文语义关联等全方位特征.电力安全作业文本实体识别实验结果表明,融合注意力机制与深度学习识别方法比目前常用的算法模型识别F1值高3.05%~11.62%,具有较高准确率,识别效果较好.  相似文献   

17.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

18.
《现代电子技术》2017,(22):27-29
针对传统英文机器翻译过于依赖专家总结,而对弱化规则下英文翻译误差大的缺点,提出一种基于弱化语法规则的英文机器翻译优化算法。该算法对英文的语法规则进行分析,再对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,投影语义信息熵数据,并将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征。最终实现特征识别,解决了传统英文机器翻译误差大的问题。最后对提出的算法进行仿真验证,结果表明使用该算法可以得到较好的英文翻译效果,从而证明了该算法的发展空间较好。  相似文献   

19.
获取大量电力领域文本数据后,由于网元链路业务命名规则不统一、业务人员表述差异等问题,会造成数据存在歧义、指代不明确等现象。为解决上述问题,提出一种基于深度序列匹配网络(Deep Sequential Matching Network, DSMN)的短文本实体链接算法,综合考虑实体指代项和候选实体间的内容和结构相似性,针对多源异构知识库实现高质量的消歧,支撑有效开展面向电力通信管理台帐以及网管数据的清洗校核工作。DSMN从多粒度对词进行全方位向量化表示,将实体指代项和句子中的每个词进行序列匹配,分别将候选实体与上层匹配结果进行序列匹配,通过卷积池化层提炼重要的匹配信息,通过动态平均算法计算实体指代项和候选实体之间的相似度。实验结果表明,DSMN在多个数据集上都展示了优异的实体链接能力。  相似文献   

20.
《现代电子技术》2016,(16):112-115
为解决数据库从高维单词空间映射至低维隐含语义空间中,无法有效实现数据库访问语义指向性分析的问题,提出基于主题模型的数据库访问语义指向性算法,建立PLSA主体模型并对其进行求解,通过PLSA主题模型获取理想的潜在语义主题,在数据库访问关键词上分布以及文档在潜在语义主题上的分布,将其应用于数据库访问语义指向性分析中,针对数据库表现出来的文本特征和结构特征建立PLSA主题模型,通过自适应不对称学习算法对不同的PLSA主题模型进行集成和优化,以实现数据库访问语义指向性分析,使数据库访问结果更加准确。仿真实验结果表明所提算法具有很高的数据库访问效率及精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号