首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于子树匹配的文本相似度算法   总被引:1,自引:0,他引:1  
为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.  相似文献   

2.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。  相似文献   

3.
基于本体论和词汇语义相似度的Web服务发现   总被引:122,自引:2,他引:120  
Web服务的大量涌现对服务发现提出了挑战,UDDI上基于关键词和简单分类的服务发现机制已经不能很好满足需要.该文在分析现有相关研究的基础上,提出了基于本体论和词汇语义相似度的Web服务发现方法.通过构建Web服务本体,给出一个明晰的Web服务发现的研究对象,指出可对Web服务进行的几种相似度计算,并对其中的词汇语义相似度计算进行详细讨论.文中具体给出两种词汇语义相似度计算方法,其中第一种方法计算词汇语义相似度基于词语间距离度量,第二种方法计算词汇语义相似度则建立在义原相似度基础上.引入本体论和词汇语义相似度,为Web服务相似度计算、Web服务发现提供了一种有效可行的方法.  相似文献   

4.
基于上下文词语同现向量的词语相似度计算   总被引:3,自引:0,他引:3  
词语的语义相似度是词语间语义相似紧密的一种数量化表示。提出一种词语的语义相似度计算方法 ,利用上下文词语同现向量来描述词语的语义知识 ,在此基础上 ,使用 min/ max的方法计算词语之间的语义相似度。实验结果表明 ,该方法能够比较准确地反映词语之间的语义关系 ,为词语间的语义关系提供一种有效度量。  相似文献   

5.
基于概率信息内容的FCA概念相似度计算方法依赖于语料库中概念的频次信息,这种方法仅使用出现概率作为信息内容度量指标计算FCA概念相似度,其计算结果的准确率不高.针对上述问题提出一种基于语义信息内容的FCA概念相似度计算方法,该方法利用本体中概念间的上下位语义关系度量信息内容,以进一步提高概念一般/具体程度的度量精度;然后在本体派生的ISA层次结构上计算语义信息内容相似度,从而避免基于概率信息内容的方法对语料库的依赖;最后把语义信息内容相似度作为度量FCA概念相似度的依据,并给出了通过构造带权二部图提高相似度计算效率的方法.实验结果表明使用基于语义信息内容的方法能够在不牺牲时间性能的前提下有效提高FCA概念相似度计算结果的准确率.  相似文献   

6.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。  相似文献   

7.
刘建明  史一民  张俊  陈存衡 《计算机工程》2013,39(3):223-228,235
在资源描述框架(RDF)图的语义相似性度量过程中,结构相似性和语义相似性计算不精确。针对该问题,提出结构语义(SAS)方法。结合改进的基于网络距离模型的语义距离公式、基于信息量模型的权重度量机制,计算概念节点的语义相似度,完善RDF图语义相似度算法,分析结构、深度和密度对RDF图语义相似性度量的影响。设计并实现原型系统,实验结果表明,该方法可有效保证RDF图的语义相似度与实际相符。  相似文献   

8.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

9.
针对大规模考试管理中存在相似试卷识别的困难,提出一种试卷相似度自动评估算法。参考现有知网词汇语义相似度计算方法,结合试卷相似度计算领域特点,改进词汇语义相似度计算方法,提出试题相似度和试卷相似度计算模型,实现对试卷相似度的自动评估,提高了大规模考试管理的工作效率。通过抽取各专业部分试卷进行相似度自动评估测试,测试结果与人工评估结果基本一致,达到预期目标。  相似文献   

10.
针对大规模考试管理中存在相似试卷识别的困难,提出一种试卷相似度自动评估算法.参考现有知网词汇语义相似度计算方法,结合试卷相似度计算领域特点,改进词汇语义相似度计算方法,提出试题相似度和试卷相似度计算模型,实现对试卷相似度的自动评估,提高了大规模考试管理的工作效率.通过抽取各专业部分试卷进行相似度自动评估测试,测试结果与人工评估结果基本一致,达到预期目标.  相似文献   

11.
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。  相似文献   

12.
基于语义的Web服务发现的设计与实现   总被引:2,自引:0,他引:2  
目前Web服务发现机制仅提供了简单的基于关键字的搜索方法,缺乏对语义推理的支持。因此提出了一种基于语义的Web服务发现的系统架构,并进行了实现。通过把Web服务的语义描述发布到UDDI注册中心,在服务查找时对服务功能进行语义相似匹配,实现了高效的服务发现。  相似文献   

13.
Towards Intelligent Semantic Caching for Web Sources   总被引:2,自引:0,他引:2  
An intelligent semantic caching scheme suitable for web sources is presented. Since web sources typically have weaker querying capabilities than conventional databases, existing semantic caching schemes cannot be directly applied. Our proposal takes care of the difference between the query capabilities of an end user system and web sources. In addition, an analysis on the match types between a user's input query and cached queries is presented. Based on this analysis, we present an algorithm that finds the best matched query under different circumstances. Furthermore, a method to use semantic knowledge, acquired from the data, to avoid unnecessary access to web sources by transforming the cache miss to the cache hit is presented. To verify the effectiveness of the proposed semantic caching scheme, we first show how to generate synthetic queries exhibiting different levels of semantic localities. Then, using the test sets, we show that the proposed query matching technique is an efficient and effective way for semantic caching in web databases.  相似文献   

14.
语义Web中基于SKOS的知识组织模型   总被引:2,自引:0,他引:2  
语义Web中的知识组织问题越来越引起人们的关注,领域知识本体是理想的知识管理方案,但构建领域本体是件费时、费力的工作.为提供一种更为简单、易用的知识管理方案,采用W3C颁布的SKOS(simple knowledge organization system)构建领域知识组织系统,通过对模型中类与属性的扩展增强对知识的描述能力,研究模型与语义Web的结合问题,并分析了SKOS模型在语义Web中发挥的作用.  相似文献   

15.
基于UDDI的语义Web服务发现研究   总被引:4,自引:1,他引:4  
林清滢 《计算机工程与设计》2006,27(12):2215-2217,2237
目前基于UDDI的Web服务发现机制仅提供了简单的基于关键字的搜索方法,缺乏对语义推理的支持。因此给出了一种基于UDDI的语义Web服务发现的架构,通过把Web服务的语义描述发布到UDDI注册中心,并扩展查询API的规范,在服务查找中加入语义推理,从而增强了UDDI的语义Web服务发现的能力。  相似文献   

16.
提出一种基于本体的网络会话表示方法,即语义会话,和一种会话聚类和可视化方法。会话聚类方面基于用户浏览网站的公共路径提出一种语义会话间的相似性度量——语义公共路径相似性度量(SMSCP),并且使用改进的kmedoids聚类算法衡量其有效性。在聚类结果可视化方面应用层云表来展示聚类结果。实验表明文中的聚类方法和可视化方法具有更好的有效性及可理解性。  相似文献   

17.
基于语义Web的空间信息共享服务   总被引:5,自引:2,他引:3  
谢储晖  郭达志 《计算机工程与设计》2005,26(10):2674-2676,2680
存取、交换、集成空间信息是Web应用研究的热点之一。然而,Web是设计为人使用的,人们必须浏览、理解、选择和导航Web信息。此外,由于数据间的语义冲突和缺乏集成存取共享的空间信息的工具,空间信息很难得到利用。利用语义Web技术和常用本体,提出了查找互联网上的空间信息的方法。首先介绍了语义Web的主要概念;其次描述了语义冲突解决本体;最后详细地探讨了如何在语义Web上实现空间信息共享服务。  相似文献   

18.
为了提高对Web动画素材的组织、管理,该文提出了基于文本特征和视觉特征融合的Web动画素材标注算法。首先利用自动提取的Web动画素材上下文信息,结合Web动画素材名称、页面主题、URL以及ALT等属性组成特征集,提取出文本关键字;然后利用视觉与标注字之间的相关性,对自动提取的标注字进行过滤,实现Web动画素材的自动标注。实验表明该文提出的基于文本特征和视觉特征融合的Web动画素材标注算法可有效地应用于Web动画素材自动标注。  相似文献   

19.
采用类似于LSI的方法,对于blog网页的链接进行了一次关于潜在语义的探索,借以发现网络社区。从实验的结果来看,基本验证了最初的想法,网页链接在一定程度上包含潜在语义的信息。注意到语义网与现今的HTML网页在链接问题上思想基本一致(只是多了语义的标记),因此该方法同样适用于语义网内的社区发现与信息检索,这也是进行研究初衷。另一个贡献是通过幂迭代对GMC聚类作了算法上的优化,使得在海量数据上的处理速度大大加快。  相似文献   

20.
为了减少传统网络知识管理系统检索时存在的大量无关知识,提出了运用本体描述语言OWL构造企业网络竺孽亏理系统的方法。该系统利用了OWL本体描述语言,采用了面向对象的构建方法,改变了以往企业网络知识管理系统架构由设计者确定的模式,构建了知识之间的联系。在此基础之上,讨论了利用本体描述语言增强企业网络知识管理系统的语义性。最后设计了一个企业网络知识管理实验系统,并给出了基于OWL的本体实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号