首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
针对向量空间模型VSM中,在计算文档相似度时要求文档标引词必须相互独立这一缺陷,提出融合本体与粗糙集的文档相似度计算方法。在该方法中,不仅可以利用本体对概念关系的准确揭示,计算文档之间的概念相似度,还可以结合粗糙集对相关概念实例的属性重要性进行度量,从而计算属性相似度,克服了传统方法需要依赖人的先验知识这一缺陷,最后综合形成文档语义向量相似度,并通过实验分析证明该方法可以在很大程度上提高文档相似度计算的准确性。  相似文献   

2.
关于提高文献的检索效率,在科技文献检索过程中,传统的基于关键词匹配的检索方法缺乏对知识的理解和处理,只能检索出包含关键词的文献,而不能检索出与关键词语义相似的文献,因而检索结果在查全率和查准率都无法满足检索者的要求.将模糊粗糙集理论引入信息检索当中,对信息检索模型的缺陷进行了改进.首先用传统的互信息函数计算标引词之间的语义关联权重,构建出模糊近似空间;然后用TF - IDF方法获得文档的模糊向量表示,在计算标引词重要度权重时,不但考虑了标引词出现的频度,还考虑位置因素,查询的模糊向量表示完全由用户的兴趣确定;最后用模糊近似空间对关键词进行概念扩展,挖掘出相似概念类,计算文档和查询模糊表示的上、下近似集,文档和查询的匹配不再是关键词匹配,而是利用布尔逻辑的合取、析取公式对上、下近似集进行模糊匹配,并返回按相似度值排序的检索结果.仿真测试表明,方法能提高科技文档检索的性能,能对科技文献进行概念意义上的检索.  相似文献   

3.
中文信息的全文检索技术   总被引:3,自引:0,他引:3  
前言信息时代产生了大量的信息,迫切需要一个高效的信息整理工具,以便快速得到自己的所需要的文章。全文检索以其易用和实用件、成为包括中义在内的信息领域的基本技术。1、全文检索技术的基本概念全文检索的基本工作方式是能够将所有包含检索词的文献检索出来,不管这个词出现在文献的什么位置;或者说文献中的任意一个词都可以作为检索到该文献的条件。全文检索是信息检索的一个分支。70、80年代得到迅速的发展,90年代以来得到广泛的应用。信息检索的核心在于在文献信息中抽取出能够表现文献的特征值,对特征值建立索引,以便于检索时…  相似文献   

4.
在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0相似文献   

5.
邵孟 《福建电脑》2012,(1):132-133
Lucene是基于Java语言实现的开源的软件项目。全文索引和检索是非常高效的信息检索技术,可以方便快捷地融入到应用程序中以增加索引和搜索功能。在应用方面,本文主要工作是各种文档全文数据库的设计与实现。最终实现了系统对中英文资料的数据检索功能。  相似文献   

6.
发展中的全文检索技术   总被引:1,自引:0,他引:1  
人类的知识在快速增长,信息的获取和存储技术也随之发展,当人们面对这一庞杂的信息资源时,查询技术至关重要。本文主要介绍全文检索技术,并涉及一些有关检索技术的前沿课题。  相似文献   

7.
为提高中文文本分类的效果,提出了一种基于粗糙集理论的规则匹配方法.在对文本特征的提取过程中,对CHI统计方法进行了适当的改进,并对特征项的权值进行了缩放和离散化.结合区分矩阵实现关于粗糙集理论的属性约简和规则提取,并采用规则预检验的方法对规则匹配的决策参数进行优化,以提高中文文本分类的效果.实验结果表明改进后的规则匹配方法分类准确率更高,同时在训练数据较少的情况下也可以取得不错的效果.  相似文献   

8.
入侵检测系统(IDS)是数据挖掘的一个热门应用领域。为了解决当前建立的入侵检测系统缺少有效性的问题,文中首先介绍入侵检测系统产生的背景和入侵检测系统的特点,分析决策树归纳学习的过程,从数据挖掘的角度,首先使用粗糙集进行属性约简,运用决策树学习方法对入侵检测数据进行归纳学习。从结果看出粗糙集和决策树学习方法在建立入侵检测系统上的有效性和实用性。  相似文献   

9.
针对海量文本信息的数据挖掘应用中,全文检索是一个重要功能。Oracle作为大型数据库管理系统,对全文检索功能的实现提供了强大的支持。从满足民航现实业务的需求出发,详细描述了应用Oracle的全文检索技术,实现在海量的数据信息中查找特定内容的功能,具有较强的实用价值。  相似文献   

10.
Lucene在数据库全文检索中的性能研究   总被引:2,自引:0,他引:2  
通过Lucene API实现对MYSQL数据库的全文检索,并将Lucene全文检索的性能和查全率同数据库全文检索和Like子句检索作对比.通过对比发现Lucene全文检索在性能上接近数据库全文检索,检索耗时约为Like子句检索的1/5.在对中文检索方面能达到77.2%的查全率,大大高于数据库全文检索.因此对于数据量较大的MYSQL数据库,Lucene全文检索将是一个很好的选择.  相似文献   

11.
介绍了一种能够统一地索引全文数据与XML树型结构数据的模型——互关联后继树,提出了后继模式树的概念,使用后继模式树有效地处理了XPath中的正则查询问题。在后继模式树的基础上提出了XPath中节点与文本的联合查询方法。结果表明该方法能够有效地提高XPath中节点与文本联合查询的效率。  相似文献   

12.
对比研究了多种全文检索模型,实现了相应的系统原型,并通过实验对模型的检索性能进行了验证,为检索模型的选择与检索性能优化提供参考。  相似文献   

13.
关于粗糙集理论及应用问题的研究   总被引:15,自引:0,他引:15  
粗糙集理论作为数据挖掘的一种有效的手段,现已在为国际学术界的一个前沿研究领域,概要介绍RS核心思想,基本概念,对几个主要问题,连续属性离散化,约简的启发式算法和扩展模型进行了论述,总结整理了现有的研究思想和处理方法;并对RS的应用领域及进一步研究的前景作了简单的介绍。  相似文献   

14.
时雷  席磊  段其国 《计算机科学》2007,34(10):228-229
本文提出了一种基于粗糙集理论的个性化web搜索系统。用户偏好文件中对关键字进行分组以表示用户兴趣类别。利用粗糙集理论处理自然语言的内在含糊性,根据用户偏好文件对查询条件进行扩展。搜索组件使用扩展后的查询条件搜索相关信息。为了进一步排除不相关信息,排序组件计算查询条件和搜索结果之间的相似程度,根据计算值对搜索结果进行排序。与传统搜索引擎进行了比较,实验结果表明,该系统有效地提高了搜索结果的精度,满足了用户的个性化需求。  相似文献   

15.
基于粗糙集和模糊理论研究粗糙模糊神经网络的设计,分析并比较粗糙模糊神经网络和其它神经网络的不同。在提取虚拟场景图像的音质效果参数的实验中,验证了粗糙模糊神经网络的有效性,同时发现其在网络结构和收敛性方面的优势。  相似文献   

16.
如何有效地挖掘和利用医疗活动过程中所产生的大量医学信息资源,使之有效地服务于医学的科学研究和临床诊断是医学信息数据挖掘所面临的主要问题.本文首先介绍目前医学数据挖掘研究的特点和现状,以及其区别于其它一般数据挖掘方法的地方;然后探讨粗糙集理论在医学乳腺X片数据挖掘中的应用,最后分析和总结实验中涉及的一些关键问题,并对未来...  相似文献   

17.
针对中医胸痹(即冠心病)诊断规则的获取,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,生成基于决策的知识表达系统.然后利用属性约简的改进算法对决策表进行属性约简,找出诊断结果的核属性,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.本算法并用VC++和SQL Server 2000实现.  相似文献   

18.
刘洋  张卓  周清雷 《计算机科学》2014,41(12):164-167
医疗健康数据通常属性较多,且存在连续型、离散型并存的混合数据,这在很大程度上限制了知识发现方法对医疗健康数据的挖掘效率。以模糊粗糙集理论为基础,研究混合数据上的分类规则挖掘方法,通过引入规则获取算法的泛化阈值,来控制获取规则集的大小和复杂程度,提高粗糙集知识发现方法在医疗健康数据上的分类效率。最后通过对比实验验证了该算法在医疗决策表上挖掘规则的有效性。  相似文献   

19.
粗糙集与Vague集   总被引:8,自引:4,他引:8  
本文研究了粗糙集和Vague集及它们的关系,这两类集都是人工智能、知识挖掘和知识发现的重要工具。从集合基数表示的角度说,粗糙集也是Vague集的一种。通过分析这两种集的关系,提出了相关定理。同时,我们还提出了粗糙Vague集的概念,并初步研究了其性质。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号