首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于概念格的文本聚类   总被引:1,自引:0,他引:1  
针对文本聚类所面临的维数灾难、稀疏向量以及标准K-Means算法初始中心点选择的随机性等问题,提出了一种基于概念格的文本聚类算法,且该算法不需要评价函数。实验结果验证了该算法的有效性。  相似文献   

2.
首先定义OE-概念信息系统.在此基础上,针对OE-概念的特点,提出OE-概念间的距离.利用K-Modes聚类方法对OE-概念进行聚类,通过类中心获得子背景.通过定义K-删除变换研究原背景OE-概念格与子背景OE-概念格之间的关系,实现OE-概念格的压缩,并讨论压缩格与原OE-概念格之间的关系.最后通过实验验证文中方法的有效性和优越性.  相似文献   

3.
空间聚类一直是空间数据挖掘研究的热点之一。现有的聚类方法大都局限于根据空间位置来进行空间聚类的,忽略了空间对象的专题属性,从而导致空间聚类结果有时完全不符合人的空间认知,缺乏合理的解释。为此,综合考虑空间对象的位置和专题属性,提出了一种基于概念格的空间聚类(Concept Lattices BasedSpatial Cluster,CLBSC)方法。该方法通过构建多维专题属性的概念格,简化了空间聚类计算。最后,通过两组实验对CLBSC算法进行了验证分析,研究结果表明:所提出的CLBSC算法是一种具有高可靠性和抗噪性的空间聚类算法。  相似文献   

4.
一种基于GN算法的文本概念聚类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
文本聚类是当前文本信息挖掘的基础和研究的重点。给出一种新的文本聚类方法,它将概念格和复杂网络有机地结合起来,以达到更优的聚类效果。首先计算关键词特征权值并对特征向量进行降维处理,然后根据关键词权值大小映射到形式背景中,通过本文所给出的新的相似度公式,计算出形式背景中概念相似度的大小,从而构造GN网络并应用GN算法进行文本概念聚类。最后通过实例,验证了方法的可行性。  相似文献   

5.
基于Web日志挖掘的Web文档聚类   总被引:2,自引:1,他引:2  
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率.  相似文献   

6.
Web文本聚类算法的分析比较   总被引:2,自引:0,他引:2  
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。  相似文献   

7.
智慧来 《计算机科学》2014,41(10):244-248
概念稳定性的计算是一个NP-完全问题,且概念稳定性在聚类分析中具有十分重要的意义。概念格自身特点决定了其适合作为概念稳定性分析的工具。为了获得一个形式化的计算概念稳定性的方法,定义了概念的核心对象集,并给出了计算核心对象集的方法,进而得到了计算概念稳定性的方法。另外,根据概念格的对偶原理,得到了一个计算类标签的方法。最后用例子说明概念稳定性在聚类分析中的应用。  相似文献   

8.
利用一种基于十字链表快速挖掘频繁项集的算法代替传统算法产生频繁项集,改进基于频繁项集的文档聚类方法在web文档上的应用.通过与传统算法的分析比较,此种方法应用改进是可行的,使整个方法应用性能更好.  相似文献   

9.
张万山  肖瑶  梁俊杰  余敦辉 《计算机应用》2014,34(11):3144-3146
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。  相似文献   

10.
刘金岭 《计算机工程》2011,37(1):57-59,62
提出一种基于语义概念的海量中文短信文本聚类方法。该方法从短信文本出发,利用《现代汉语语义分类词典》的级类主题词,在短信文本向量集中提取概念元组,形成表示聚类结果的高层概念,基于这些高层概念进行样本划分,从而完成整个聚类过程。实验结果表明,该聚类算法有较好的聚类结果且执行效率较高。  相似文献   

11.
Web服务的有效管理是实现服务发现和服务组合的关键。文中定义了W eb服务及服务间的关系等基本概念,在W eb服务管理中引入了形式概念分析(FCA)的方法,建立了描述服务间相互关联的概念格,分析了如何通过概念格对W eb服务进行有效地管理,并实现了概念格的增量维护。对模拟数据和真实数据的相关实验表明,文中提出的基于概念格的方法能有效地实现W eb服务管理,提供了一种规范的对服务功能的分类管理策略,对服务发现也有较好的检索效果。  相似文献   

12.
利用概念格来实现不确定性推理的过程中,给出了一个具体的语言真值格蕴涵代数的完备结构;作为概念格的扩充理论,提出了用于处理不确定性信息的语言真值概念格,并基于语言真值概念格给出了内逼近不确定性推理规则和外逼近不确定性推理规则,进而验证了这两种规则的还原性。  相似文献   

13.
王燕  李明 《计算机应用》2007,27(10):2376-2378
概念格是进行数据挖掘和规则提取的有力工具,通过分析概念格中概念的特征,提出了扩展概念格以及基于扩展概念格的分类规则获取算法。实验表明该算法能够生成简洁并且易于理解的规则集。  相似文献   

14.
基于 K-center和信息增益的 Web搜索结果聚类方法 *   总被引:1,自引:0,他引:1  
丁振国  孟星 《计算机应用研究》2008,25(10):3125-3127
基于 K-center和信息增益的概念 ,将改进后的 FPF( furthest-point-first)算法用于 Web搜索结果聚类 ,提出了聚类标志方法 ,使得聚类呈现出的结果更易于用户理解 ,给出了评价聚类质量的模型。将该算法与 Lingo, K-means算法进行比较 ,其结果表明 ,本算法能够较好地平衡聚类质量和速度 ,更加适用于 Web检索聚类。  相似文献   

15.
目前常用向量空间模型 VSM(vector space model)表示文档,造成的高维问题制约了其实际应用的效果。采用了一种高性能特征选择函数,在构建VSM时选取对区分类别贡献较大的特征词,因此有效地降低了特征空间的纬度,大大提高了系统的效率,改善了聚类的效果。通过真实数据集上的实验,证明其性能优于传统方法。  相似文献   

16.
文本聚类是文本挖掘的一种重要方法.基于形式概念分析和概念相似度,给出一种新的多背景文本模糊聚类方法和模型.该方法不仅考虑了多背景关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵. 可根据不同要求得到相应的聚类结果,具有较好的灵活性.最后通过示例说明了所给算法的可行性.  相似文献   

17.
基于同类概念的概念格横向合并算法   总被引:4,自引:0,他引:4  
张磊  沈夏炯  贾培艳  许研 《计算机应用》2006,26(8):1900-1903
提出了同类概念的观点,在格的合并算法中通过利用同域概念格之间的同类概念和概念的父—子关系实现对其所有子节点的快速更新,以提高概念格横向合并算法的时间效率。并进一步论证了把节点数量较少的格插入到节点多的格中比反着做更省时间。实验表明,该算法和相关文献中的同域概念格横向合并算法相比,其时间性能有明显改善。  相似文献   

18.
基于趋势概念格的决策规则挖掘   总被引:1,自引:0,他引:1  
通过分析动态信息系统基于时间序列的对象变化特征,提出对象相关的趋势概念格概念,基于决策规则提取的目标,提出相应的建格算法和决策规则提取算法,并以股票走势预测为例,验证了算法的有效性。  相似文献   

19.
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号