首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
对k-means聚类算法的改进   总被引:17,自引:6,他引:17  
袁方  孟增辉  于戈 《计算机工程与应用》2004,40(36):177-178,232
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。  相似文献   

2.
李永新  薛贞霞 《计算机工程》2010,36(7):185-186,
针对多类分类问题中现有算法精度不高的问题,基于一类分类马氏椭球学习机,提出一种最大间隔椭球形多类分类算法,将每一类数据用超椭球来界定,数据空间由若干个超椭球组成,每个超椭球包围一类样本点,并以最大间隔排除不属于该类的样本点,该算法同时考虑了不同类样本点的协方差矩阵,即分布信息。真实数据上的实验结果表明该方法能提高分类精度。  相似文献   

3.
李永新  薛贞霞   《计算机工程》2010,36(7):185-186
针对多类分类问题中现有算法精度不高的问题,基于一类分类马氏椭球学习机,提出一种最大间隔椭球形多类分类算法,将每一类数据用超椭球来界定,数据空间由若干个超椭球组成,每个超椭球包围一类样本点,并以最大间隔排除不属于该类的样本点,该算法同时考虑了不同类样本点的协方差矩阵,即分布信息。真实数据上的实验结果表明该方法能提高分类精度。  相似文献   

4.
k-means聚类算法的有效性依赖于初始中心的选择。提出一种利用样本点空间分布的邻域密度来选择合理的初始中心的算法。提出的算法是对DK算法[2]的一种改进。有两方面改进:一是通过合理地选择距离阈值来静态地选择初始聚类中心,称为DK-Ⅱ-S算法;二是通过对选择样本点计算密度与已选择聚类中心最小距离的加权,使得该点被选择为初始中心点的概率与这个加权成正比,动态地选择初始聚类中心,称为DK-Ⅱ-D算法。在一个实际文本数据集上进行实验计算,证实算法改进的效果良好。  相似文献   

5.
聚类是数据挖掘中重要组成部分,为了提高聚类的处理效率,将并行处理技术运用于k-means和PAM算法中,对k-means与PAM算法进行了改进。实验结果表明:并行k-means算法相对串行k-means算法有更好的执行效率;且k-means算法有比PAM算法更好的并行性和可扩展性。最后,该文提出和介绍了将并行技术引入谱聚类算法。  相似文献   

6.
文档聚类中k-means算法的一种改进算法   总被引:14,自引:0,他引:14  
万小军  杨建武  陈晓鸥 《计算机工程》2003,29(2):102-103,157
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感,为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法,实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。  相似文献   

7.
多尺度的谱聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种多尺度的谱聚类算法。与传统谱聚类算法不同,多尺度谱聚类算法用改进的k-means算法对未经规范的Laplacian矩阵的特征向量进行聚类。与传统k-means算法不同,改进的k-means算法提出一种新颖的划分数据点到聚类中心的方法,通过比较聚类中心与原点的距离和引入尺度参数来计算数据点与聚类中心的距离。实验表明,改进算法在人工数据集上取得令人满意的结果,在真实数据集上聚类结果较优。  相似文献   

8.
一种有效的k-means聚类初始中心选取方法   总被引:5,自引:0,他引:5  
针对传统k-means聚类算法中对初始聚类中心随意选取和人为指定的缺陷,提出一种改进的初始聚类中心的选取方法,利用差异矩阵将新的聚类初始中心计算方法用在传统的k-means算法思想中,对传统的k-means算法进行改进。降低k-means算法的复杂度和对异常点的敏感度,提高算法的可伸缩性。  相似文献   

9.
周鹿扬  程文杰  徐建鹏  徐祥 《计算机科学》2016,43(Z6):454-456, 484
针对k-means算法采用单一的聚类中心描述一个类簇,一般不能有效适用于任意形状簇的缺陷,在研究k-means算法以及初始聚类中心优化算法的基础上,考虑将数据集中较大或延伸状的簇分割成若干球状簇,而后合并这些小簇。该算法首先选取一组分布于高密度区域的聚类中心,将聚类中心周围的对象划分到离其最近的聚类中心形成子簇,再根据子簇之间的连通性完成子簇合并。实验证明,该算法能有效适应任意形状簇,并保持了k-means算法简单的优点。  相似文献   

10.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

11.
文本自动分类是信息检索和数据挖掘领域的研究热点和核心技术,但是在实际应用中,经常会出现文本实例中一些类中欧冠的文本很多,而另一些类中的文本较少的情况,而这些应用往往就是为了预测其中很少出现但很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,该文针对提高不平衡数据集中的少数类文本的分类性能之一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能。  相似文献   

12.
基于超球支持向量机的兼类文本分类算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对兼类文本,提出了一种分类算法。对属于同一类别的文本,利用超球支持向量机在特征空间中求得一个能包围该类尽可能多文本的最小超球,使各类文本之间通过超球分隔开,达到分类效果。对待分类文本,计算它到各超球球心的距离,根据距离判定该文本所属的类别。实验结果证明,该算法不仅具有较快的分类速度,而且具有较高的分类精度。  相似文献   

13.
在深入分析当前流行的文本主题提取技术和方法的基础上,提出一种将本体技术应用于文本主题提取的方法。使用本体技术用语义向量表示文本句,对文本进行预处理,然后进行语义相似度计算和语义聚类,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法在提取文本主题方面是一个有效的方法。  相似文献   

14.
文本主题的自动提取方法研究与实现   总被引:1,自引:0,他引:1  
张其文  李明 《计算机工程与设计》2006,27(15):2744-2746,2766
在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行聚类实现信息合并,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法是一个有效、实用的方法。  相似文献   

15.
16.
串频统计和词形匹配相结合的汉语自动分词系统   总被引:45,自引:7,他引:45  
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词,特别适用于文献检索等领域。  相似文献   

17.
本文将分类关联规则挖掘算法应用到文本特征提取领域,给出了一种二次提取方法:在第一阶段,用DF“落差”来初步筛选特征项。第二阶段挖掘分类关联规则。实验证明该方法效果较好;并且在保证精度的情况下,有效降低特征项数目。  相似文献   

18.
秦玉平  陈一荻  王春立  王秀坤 《计算机科学》2011,38(11):204-205,224
提出了一种基于超椭球的兼类文本分类算法。对每一类样本,在特征空间求得一个包围该类样本的最小超椭球,使得各类样本之间通过超椭球隔开。对待分类样本,通过判断其是否在超椭球内确定其类别。若没有超椭球包围待分类样本,则通过隶属度确定其所属类别。在标准数据集Reuters 21578上的实验结果表明,该方法较超球方法提高了分类精度和分类速度。  相似文献   

19.
代办费的使用管理是学校特别是成人学校为学生提供良好服务的重要内容。本文试图借助VB.NET工具开发B/S接口方式的WEB服务,开发一个能通过后台数据库的管理工具SQLServer的配合,充分利用校园局域网络,使各部门的管理人员能及时方便地记录学生的各项代办费支出。各班班主任(辅导员)能及时查询所管理班级及学生个人的代办费收支情况,也为期末代办费的结算和学生结转到下学期代办费的查询提供方便。以有效提高代办费管理效率。  相似文献   

20.
分析一些篇章结构特征,探讨一种基于篇章结构的自动文摘方法.充分结合篇章结构提供的信息,采用动态聚类算法划分文章子主题;以各子主题为单位摘要,通过句子相关度计算,合并各部分摘要的重叠内容;将精简后的各部分摘要顺序输出生成篇章摘要.该摘要方法实行全文加权,局部抽取,从全面性和准确性上提高摘要质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号