首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法 TF-IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

2.
文章提出了一种基于模糊聚类的文本分类器构造方法,介绍了文本中特征词之间模糊相似度的度量方法,给出了利用“编网法”思想实现模糊聚类的算法。通过比较文本中特征词之间的模糊相似度,实现特征词的聚类,最终获取能够识别文本主题类别的特征词集合,并给出了分类器性能的测试结果。  相似文献   

3.
文本聚类是数据挖掘的核心技术,能帮助用户有效地导航、总结和组织文本信息。本文通过对文本聚类的应用研究,探讨了几种聚类算法的原理与特点,提出并分析了K-means算法与层次凝聚算法的具体实现步骤。  相似文献   

4.
邹杜  唐文军  龙卫江  张凌 《通信学报》2013,34(Z2):30-162
相似文本标定是抄袭检测的一个重要环节,现有标定方法大多采用直接对文本或指纹进行合并的方式,标定精度受干扰信息影响较大。针对这种局限性,分析了匹配指纹对的语义特征,提出基于斜率密度的相似文本聚类方法,将文本匹配合并问题转化成稠密样本点聚类问题,并在PAN公用语料库上对该方法进行了测试,得到的主要指标优于PAN10前3名。目前已将该方法用于华南理工大学特色专业教学平台的作业查抄,取得了较好的效果。  相似文献   

5.
基于蚁群算法的文本分类和聚类   总被引:1,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

6.
为保障对称密码算法的安全性,其构成算法中所使用的布尔函数必须具有优良的密码学性质。结合禁忌搜索算法和爬山算法的优点,提出了一种新的优良布尔函数启发式生成算法——混合禁忌搜索算法。应用该算法,可以快速得到大量具有高非线性度、低自相关性、一阶弹性、最优代数次数、最优代数免疫度、最优(次优)抵抗快速代数攻击能力等的布尔函数。仿真结果表明,所提算法搜索能力强,运行速度快,且搜索出的布尔函数的密码学性质优于已知的优化算法的结果,也弥补了采用构造法构造布尔函数的一些缺陷。  相似文献   

7.
谱聚类算法是近年来国际上机器学习领域的一个新的研究热点,但其在文本聚类上的应用还较少。设计了一种文本聚类谱算法,首先构建文本相似度矩阵并进而得到拉普拉斯矩阵,随后对其进行特征值分解获得前k个最小特征向量,最后使用K均值算法(K-means)获得k个文本簇。在真实文本数据集上进行了实验,与超球K均值算法相比,本文算法获得了更好的聚类结果。  相似文献   

8.
汉语文本聚类及其算法设计   总被引:1,自引:0,他引:1  
主要针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏感等问题,利用聚类簇代表点选取的方法,同时结合基于人进行聚类判断所遵循的基本原则,即聚类中对象间距离应小于聚类间距离,设计了一种有效的聚类算法,实验结果表明算法是有效的。  相似文献   

9.
使用谱聚类算法解决文本聚类集成问题   总被引:1,自引:0,他引:1  
采用2个不同的谱聚类算法解决文本聚类集成问题.为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度.分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性.在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题.  相似文献   

10.
一种文本聚类方法及BBS浏览机制研究   总被引:2,自引:0,他引:2  
文章旨在探索一种新的BBS浏览方式,提出了一种新的文本聚类方法.即以分等级的菜单方式组织帖子,以引导用户方便地浏览他所感兴趣的帖子,也便于了解当前BBS上的热点话题。  相似文献   

11.
为解决DOA参数估计搜索算法中局部极值和实时性等问题,从现代优化理论的角度出发,选用比遗传算法、模拟退火法更易利用问题特殊信息的禁忌搜索算法来求解DOA的极大似然估计.理论分析和仿真结果表明:该方法不仅能获得全局最优解;而且在获得与AP算法相当测向精度和测向分辨率的情况下,有更低的计算量;对相干信号,其性能比AP算法有较大的提高.  相似文献   

12.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高.  相似文献   

13.
K?medoids算法具有对初始聚类中心敏感,聚类准确度不高及时间复杂度大的缺点。基于此,文中提出一种优化的K?medoids算法;该算法在已有的粒计算初始化基础上进行了改进,以对象之间的相似性作为判断依据,结合最大最小法初始化聚类中心,能有效地获取最佳或近似最佳的聚类中心;在优化的粒计算前提下,提出了基于微粒子动态搜索策略,以初始中心点作为基点,粒子内所有对象到其中心的平均距离为半径,形成一个微粒子;在微粒子内部,采用离中心点先近后远的原则进行搜索,能有效地缩小搜索范围,提高聚类准确率。实验结果表明:在UCI多个标准数据集中测试,且与其他改进的K?medoids算法比较分析,该算法在有效缩短收敛时间的同时保证了算法聚类准确率。  相似文献   

14.
In response to the problems traditional multi-view document clustering methods separate the multi-view document representation from the clustering process and ignore the complementary characteristics of multi-view document clustering,an iterative algorithm for complementary multi-view document clustering——CMDC was proposed,in which the multi-view document clustering process and the multi-view feature adjustment were conducted in a mutually unified manner.In CMDC algorithm,complementary text documents were selected from the clustering results to aid adjusting the contribution of view features via learning a local measurement metric of each document view.The complementary text document of the results among the dimensionality clusters was selected by CMDC,and used to promote the feature tuning of the clusters.The partition consistency of the multi-dimensional document clustering was solved by the measure consistency of the dimensions.Experimental results show that CMDC effectively improves multi-dimensional clustering performance.  相似文献   

15.
During the past decades, mobile communication is in the vigorous development, where the cell planning problem (CPP) is one of impressive research issues. CPP has been proved to be NP‐Complete, and many works develop intelligent heuristic search strategies to solve it. Among many factors to affect the cell planning, the major one is the signaling cost, where the location management is critical to the cost. In this paper, we focus on how to tackle CPP such that the signaling cost can be minimized. We adopt a meta‐heuristic iterative search algorithm, Tabu Search (TS), to deal with the cell planning issue for the base station and propose novel designs to improve the TS capability, including initialization and neighbor swap strategy. The simulation results reveal that our TS outperforms traditional TS, genetic algorithms, and several previous works in CPP. Copyright © 2014 John Wiley & Sons, Ltd.  相似文献   

16.
A good fast motion search algorithm should efficiently speed up the encoding time and keep the quality of encoded video stable at the same time. Researches have shown that many fast algorithms lose the quality requirement in some special video sequences. These video sequences often have heavy motions and need large search windows for motion vector search. E3SS, DS, and E-HEXBS, which are famous algorithms, are not good enough in these sequences. As to UMHexagonS, it is able to meet the high video quality requirement very well, but it costs too much computation. This paper introduces a multi-stage motion estimation algorithm. The algorithm ensures getting good video quality while decreases the motion search time efficiently. It divides the search regions into many un-overlapped small-diamond regions and forces the motion search to go outward for larger motion vectors. This method is also designed to avoid mistaking local optimal motion vectors. For this reason, the selected motion vector is refined by several stages. Experimental results show that the proposed algorithm uses almost the same number of checking points as E3SS but achieves a better quality. Furthermore, the proposed algorithm is also tested in H.264/AVC JM9.5 encoder; the experimental results show that this algorithm is also suitable for variable block-size motion estimation.  相似文献   

17.
个性化服务中用户兴趣聚类算法研究   总被引:2,自引:0,他引:2  
李春妍  王勇 《信息技术》2007,(10):77-80
讨论了个性化服务中用户兴趣建模对聚类算法的要求,指出经典聚类算法应用于用户兴趣聚类时的不足。在基于图论的K近邻聚类算法的基础上进行改进,提出一种基于相似度的聚类算法。实验证明,与K近邻算法相比,该算法能够显著提高聚类质量,有效区分孤立点,适用于用户兴趣聚类。  相似文献   

18.
一种基于模糊聚类理论的文本水印算法   总被引:2,自引:2,他引:0  
基于模糊聚类理论,建立了以文本文档中汉字特征为变量的聚类模型。根据人类视觉系统特性,将文本文档中汉字按照汉字笔画数、出现频率及分布均匀度作了分类,选择文本文档中汉字笔画数相对较少、使用频率较高、分布均匀度高的类别嵌入水印。实验结果表明,该算法对于内容的部分删除、添加、格式调整等攻击具有较好的鲁棒性,水印的不可见性好。  相似文献   

19.
叶晨  杨振宇  喻剑  龙其 《通信学报》2014,35(12):14-123
提出了一种基于实时路况信息的分布式邻近目标查询算法,采用基于Voronoi图的划分将地理信息存储在离它最近路口的智能摄像头上,实时路况信息由智能摄像头采集,通过对路口的畅通程度进行建模,估算出路口间通行所需要的时间。当有车辆查询邻近目标时,网络中的智能摄像头根据所在路口的畅通程度和到邻近路口的距离,在分布式查询过程中加入延时转发机制,广播目标路径询问的数据分组,使数据分组的发送能模拟当前的路况进行传输,从而获得到达邻近目标的路径。基于真实数据的实验结果表明算法是有效的,处理大量并发查询时的性能优于现有方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号