首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了在检索过程中全面挖掘用户查询信息,文中提出了一种基于领域本体的语义合成技术,该方法以文本为数据源,引用数据源和领域本体之间的映射关系来表达数据文本的语义.文章提出了一个语义合成模型,该模型由领域本体、关键词语义抽取、概念语义相似度计算及语义推理等相关技术模型组成.文中对该模型进行了实验验证,通过对实验结果进行分析推理可知,文中提出的基于领域本体的语义合成模型提高了检索系统的查准率和计算机处理信息的能力,从而也提高了用户的满意度.  相似文献   

2.
一种基于加权领域本体的语义检索方法   总被引:2,自引:0,他引:2  
提出了新方法WOSR,以对已经被本体概念标注的领域信息资源进行语义检索.WOSR方法首先建立领域本体,再采用均等概率分布方法为概念赋权,然后通过概念的权重求出概念相似度,最后计算用户检索请求和信息资源之间的语义相似度,并根据相似度的大小排序输出检索结果.实验结果表明,WOSR方法比其他经典方法的检索效果更好.  相似文献   

3.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

4.
语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.  相似文献   

5.
通过对目前应用广泛的软构件检索技术的研究,提出了一种基于软构件描述文本信息抽取的检索方法。该方法利用中文分词技术和向量空间模型中"词频与倒文档频度"算法抽取关键词,通过《知网》语义相似度,计算用户需求与可重用软构件的匹配度,实现了对软构件的语义检索,能实现模糊查询,具有一定的张弛能力。  相似文献   

6.
为解决语义网检索过程中缺少推理导致语义检索性能不高的问题,提出一个基于推理的语义网检索模型,并介绍了该模型实现的关键技术.针对构建的领域本体,使用SWRL规则语言进行本体完善把本体中的隐性知识表示出来;在信息抽取过程中,对于识别出的实体,利用推理规则,获得更加丰富的实例知识库;对于用户输入的查询条件,利用完善的本体知识库及规则得到更多的相似概念实现查询扩展;进行语义匹配,获得更为精准的检索结果.实验结果表明,该模型能提高信息检索的语义性,得到较满意的信息检索结果.  相似文献   

7.
一种基于语义相似度的信息检索方法   总被引:3,自引:0,他引:3  
随着网络信息的日益丰富以及语义网络的出现,语义信息检索技术成为当前的热点.本文研究一种基于语义相似度的信息检索方法.利用本体在语义刻画上的优势,以概念相似度和属性相似度作为语义检索的衡量依据.对语义检索过程的分析和结果的统计表明,文档语义特征向量的概念及属性数的增加有利用改善检索效果.  相似文献   

8.
针对用户使用网站效率低和网站质量差的问题,提出了利用形式概念分析(FCA)来构建网页语义概念树的方法。该方法首先利用信息抽取、自然语言处理等技术对网页集进行文本抽取、分词,提取出描述文本语义的特征词;再以主题词表为参照,设计基于搜索引擎的词语相似度算法,将抽取的特征词全部转换成主题词表中主题词,对将抽取的语义信息转换成形式背景,利用规则、聚类等技术对形式背景进行约简。最后通过设计的建格算法构建概念格,实现概念树构建。实验结果表明,利用该方法构建的概念树可以作为网站本体模型的基础,对语义评估具有积极的意义,具有一定的应用价值和借鉴意义。  相似文献   

9.
针对现有图像检索方法中存在的不同用户间因对图像的理解差异而存在的歧义问题,通过引入概念抽象的思想,将图像标注和检索中语义相关的关键词联系起来,统一不同用户对图像语义的理解和描述;结合相关反馈技术,确定检索关键词所代表语义概念信息,并实现概念层次的图像检索.实验结果表明,该方法能有效地提高图像的检索性能.  相似文献   

10.
刘耀  帅远华  龚幸伟  黄毅 《计算机科学》2018,45(1):128-132, 156
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。  相似文献   

11.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

12.
利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注,利用文本特征抽取机制提取类别特征项和文本特征项,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量,在此基础上利用潜在语义分析,将双语文本在语义层面上统一起来,通过类别与文本的语义相似度进行分类。从而获取较高的精度。  相似文献   

13.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。  相似文献   

14.
基于本体的语义标引研究与实现   总被引:2,自引:0,他引:2  
标引是资源管理与检索的基础.传统的标引方式仅停留在关键字异同的逻辑层面,忽略了文档语义层面上的信息.以本体的知识组织体系为基础,以抽取文档的语义向量为目标,提出了基于本体的语义标引思想,为基于概念匹配的语义检索创造条件.为了更清晰的描述标引过程,建立了基于本体的语义标引模型,并对模型中各环节进行详细的功能定义.参照具体的实例本体进行实验和分析.  相似文献   

15.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。  相似文献   

16.
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。  相似文献   

17.
黄育  张鸿 《计算机应用》2017,37(4):1061-1064
针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索(LSTR)算法。首先,利用隐狄利克雷分布(LDA)模型构造文本语义空间,然后以词袋(BoW)模型来表达文本对应的图像;其次,使用多分类逻辑回归对图像和文本分类,用得到的基于多分类的后验概率表示文本和图像的潜语义主题;最后,利用文本潜语义主题去正则化图像的潜语义主题,使图像的潜语义主题得到加强,同时使它们之间的语义关联最大化。在Wikipedia数据集上,文本检索图像和图像检索文本的平均查准率为57.0%,比典型相关性分析(CCA)、SM(Semantic Matching)、SCM(Semantic Correlation Matching)算法的平均查准率分别提高了35.1%、34.8%、32.1%。实验结果表明LSTR算法能有效地提高跨媒体检索的平均查准率。  相似文献   

18.
基于领域本体和Lucene的语义检索系统研究   总被引:1,自引:0,他引:1  
王欢  孙瑞志 《计算机应用》2010,30(6):1655-1657
语义相似度是影响语义检索系统查准率和查全率的重要因素。设计了一种改进的语义相似度模型,用于量化概念间的关联程度,通过对相似度阈值的控制来调整查询扩展时扩展概念集的范围。在Lucene的基础上设计了一个基于领域本体的语义检索系统,该系统对提交的关键词组进行查询扩展后,将扩展关键词组导入文本检索引擎Lucene中,并把语义相似度作为检索结果排序算法的关键因素。实验结果表明,该语义相似度模型得出的相似度值更加接近专家经验值,系统的查询准确率与未加入查询扩展的Lucene系统相比有较大的提高。  相似文献   

19.
一种基于潜在语义分析的查询扩展算法   总被引:5,自引:0,他引:5  
该文提出一种新的查询扩展算法。通过对文本进行潜在语义分析,引入计算词语间语义相似度的方法,将文本聚类应用到检索的交互过程中,以提高信息检索的质量。实验结果表明该算法对于提高检索的准确率是十分有效的。  相似文献   

20.
模糊集间的语义关联度及其应用   总被引:7,自引:0,他引:7  
何新贵 《软件学报》1994,5(6):19-24
本文提出了一种描述模糊集间近似程度的语义关联度概念,它不仅与模糊集论域元素的隶属度有关,而且考虑了论域元素间的语义近似程度,因此它比过去模糊数学中定义的各种距离和贴近度等概念更加精细地刻划了模糊集间的相似性,从而在人工智能和其它领域中可有广泛应用,文中列举了它在情报检索和正文分类等方面的应用实例。此外,论文还给了两种近似地计算语义关联度的算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号