首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
对现有本体映射方法进行比较和分析后,提出了一种基于视图的映射方法。本体视图实际上是对本体的抽取,即本体的一种应用模式。作为对用户知识的反映它不仅增加了本体映射的可理解性和清晰性,同时也简化了用户对信息的检索。通过构造本体视图间的双向映射关系,既保证了信息查找和定位准确、高效,又提高了映射关系的可扩展性,使本体映射更适合动态变化的信息环境。  相似文献   

2.
文本分类中一种混合型特征降维方法   总被引:5,自引:1,他引:4       下载免费PDF全文
提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异信息对特征集进行初步选择。使用一种新的基于PCA的特征抽取方法对剩余特征集进行二次抽取,在最大限度减少信息损失的前提下实现了文本特征的有效降维。对文本的分类实验结果表明,该特征降维方法具有良好的分类效果。  相似文献   

3.
传统的视频检索大多采用基于关键词的方法,难以获得让用户满意的查准率和查全率。为此提出一种基于本体的视频检索技术,该技术借助于领域本体,以其基本概念为关键词通过互联网图像搜索引擎在线获取样本图像组,提取SIFT特征建立图像特征词典,抽取图像特征直方图并计算相似度,辅助完成视频的自动标注,初始化视频检索库;同时,借助于领域本体,对从用户的查询输入中抽取的关键词进行语义扩展,将以扩展概念集进行检索的结果返回给用户,以此实现基于本体的视频检索。最后,结合实例对该算法进行实现和分析,表明了该方法的可行性和有效性。  相似文献   

4.
徐慧  ;杨学兵 《微机发展》2008,(12):203-206
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。提出了基于本体相似度的信息抽取方法,该方法的关键在于用本体相似度判定某个行本体是正例还是反例,然后通过主动学习选择最有可能包含抽取信息的行本体集,再充分利用本体的语义推理能力找到正确的片断。从论文中提取头部信息和引文信息为进一步的语义检索和语义存储奠定基础。测试数据集的实验结果显示该方法比其他方法具有较高的准确率。  相似文献   

5.
基于本体相似度的中文科研论文信息抽取   总被引:1,自引:0,他引:1  
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要.提出了基于本体相似度的信息抽取方法,该方法的关键在于用本体相似度判定某个行本体是正例还是反例,然后通过主动学习选择最有可能包含抽取信息的行本体集,再充分利用本体的语义推理能力找到正确的片断.从论文中提取头部信息和引文信息为进一步的语义检索和语义存储奠定基础.测试数据集的实验结果显示该方法比其他方法具有较高的准确率.  相似文献   

6.
传统文本情感分类方法通常以词或短语等词汇信息作为文本向量模型特征,造成情感指向不明和隐藏观点遗漏的问题。针对此问题提出一种基于主题角色的文本情感分类方法。该方法首先提取出文本中的潜在评价对象形成评价对象集,评价对象作为情感句描述的主体能够很好地保存文本情感信息;然后使用LDA模型对评价对象集进行主题抽取,将抽取出的主题分裂成"正""负"两种特征项,将这两种特征项记为正负主题角色用于保存文本情感信息;最后,计算主题角色在文本中的情感影响值并建立主题角色模型。实验结果表明,所提方法与传统方法相比可有效提高主观性文本情感分类的准确率。  相似文献   

7.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

8.
基于示例的用户信息需求模型的获取和表示   总被引:7,自引:0,他引:7  
为了获取用户的信息需求,并依据信息需求模型在因特网上搜索相关文本,文章提出了基于示例的用户信息需求模型的获取和表示方法。其基本思想是:在用户给定的示例文本集的基础上,利用特征项的类别区分度,抽取能够表现用户兴趣的项作为用户信息需求模型的基本特征项集。然后,基于统计上的Fisher准则,进行判别分析,以获取特征项在相关文本的判定中的重要程度。最后,给出用户信息需求模型的逻辑和物理表示。  相似文献   

9.
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取,且准确性较高  相似文献   

10.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.  相似文献   

11.
该文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得本体概念间层级关系。该文将中国大百科知识体系扩展为百万级概念的多领域中文本体,为进一步抽取本体概念的属性、概念之间的非层级关系以及支持问答服务等应用建立了良好的基础。实验证明该方法相对于单一特征方法能够提高11.8%的挂载精度。  相似文献   

12.
基于文本表示的特征项权值计算方法   总被引:3,自引:0,他引:3  
文本表示中特征项的权值计算方法决定了文本特征的提取,在很大程度上影响了文本聚类的准确率。通过系统总结常用的几种特征项权值计算方法,并逐一比较分析和研究,提出了一种性能较好的计算方法——,多重因子加权的特征项权值计算方法,经实验证明该计算方法确实能够有效地提高文本聚类的准确性。  相似文献   

13.
目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。  相似文献   

14.
Ontologies represent domain concepts and relations in a form of semantic network. Many research works use ontologies in the information matchmaking and retrieval. This trend is further accelerated by the convergence of various information sources supported by ontologies. In this paper, we propose a novel multi-modality ontology model that integrates both the low-level image features and the high-level text information to represent image contents for image retrieval. By embedding this ontology into an image retrieval system, we are able to realize intelligent image retrieval with high precision. Moreover, benefiting from the soft-coded ontology model, this system has good flexibility and can be easily extended to the larger domains. Currently, our experiment is conducted on the animal domain canine. An ontology has been built based on the low-level features and the domain knowledge of canine. A prototype retrieval system is set up to assess the performance. We compare our experiment results with traditional text-based image search engine and prove the advantages of our approach.  相似文献   

15.
目前关系抽取方法中,传统深度学习方法存在长距离依赖问题,并且未考虑模型输入与输出的相关性。针对以上问题,提出了一种将LSTM模型(Long Short-term memory)与注意力机制(Attention Mechanism)相结合的关系抽取方法。首先将文本信息向量化,提取文本局部特征;然后将文本局部特征导入双向LSTM模型中,通过注意力机制对LSTM模型的输入与输出之间的相关性进行重要度计算,根据重要度获取文本整体特征;最后将局部特征和整体特征进行特征融合,通过分类器输出分类结果。在SemEval-2010 Task 8语料库上的实验结果表明,该方法的准确率和稳定性较传统深度学习方法有进一步提高,为自动问答、信息检索以及本体学习等领域提供了方法支持。  相似文献   

16.
基于文本集密度的特征词选择与权重计算方法   总被引:3,自引:0,他引:3  
根据汉语语言自身的特点,在基于原有的特征项提取方法基础之上,提出了基于文本集密度的特征词选择的思想,对于特征项个数和选择进行了界定,找出了不损失文本有效信息的最小特征词语集,并且利用其中的中间值作为词语权重计算的一部分,创造出更为合理的权重计算方案。最后利用一种新的衡量权重好坏的标准——元打分法,对文中所提出的方法的正确性和有效性进行了实验和证明。  相似文献   

17.
刘耀  帅远华  龚幸伟  黄毅 《计算机科学》2018,45(1):128-132, 156
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。  相似文献   

18.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

19.
该文简要从信息检索的一般过程出发,分析了基于本体的知识检索的工作原理以及一般模型;着重对现有的知识检索智能性不足的缺陷,引入IGA、多Agent等技术,设计了一个基于本体的智能化知识检索模型。  相似文献   

20.
实体关系抽取是从非结构化和程序化的海量文本中识别出实体之间的语义关系,为本体构建、智能检索等任务提供数据支持,然而现有远程监督关系抽取方法普遍存在需要大量人工标注语料库、提取特征含有噪声且忽略了实体与句子之间关联关系等问题。提出一种基于残差双向长短时记忆网络(BiLSTM)与句袋内和句袋间注意力机制的关系抽取模型,在将词向量和位置向量作为模型输入的基础上,通过残差BiLSTM网络提取语句与实体词中的长距离文本信息,利用句袋内和句袋间注意力机制对提取到的特征信息进行处理,使模型在远程监督过程中减少实体之间的特征提取噪声,并提高模型识别准确性。在NYT数据集上的实验结果表明,该模型能够充分利用实体与关系特征,平均精确率达到86.2%,相比于将卷积神经网络和分段卷积神经网络作为句子编码器的同类模型具有更好的远程监督关系抽取性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号