首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 968 毫秒
1.
随着网络上非平衡数据的大量涌现,使得对非平衡数据分类的研究成为一个新的研究热点.根据特征在类别中的分布特点,提出了基于类间、类内分布的方法.该方法不但充分考虑了稀有类别信息对特征选择的影响,使得构造的类别分布函数能够相当好地反映稀有特征的信息,而且能够选出对非平衡数据分类贡献大的特征.实验结果表明:此方法的MacroF...  相似文献   

2.
《焦作工学院学报》2013,(2):193-198
提出了一种基于多特征信息融合的运动目标轨迹聚类方法.针对视频监控目标的特点,引入轨迹均值、距离方向、运动方向和平均速度4个特征空间来描述目标的运动轨迹.首先,采用Mean-Shift算法对每个特征空间进行聚类,得到基本的运动类别信息;其次,设计多特征融合算法,通过计算不同特征空间的类别间关系,进行类别信息融合;最后,得到融合了多个特征空间信息的聚类结果.由于信息融合是在聚类层面进行的,能够有效避免在特征空间层面融合时的维数统一问题.试验结果表明了本方法的有效性.  相似文献   

3.
针对基因表达数据的高维小样本问题,提出一种新的线性降维方法.该方法采用保局投影,结合样本的类别信息,将基因表达数据投影到特征子空间.与主分量分析方法寻找最大方差方向不同,类别保留投影方法旨在寻找能够反映样本类别结构的特征子空间.采用该方法进行数据降维的同时能使样本按照类别属性进行聚类.对真实的基因表达数据进行了降维可视化和k均值聚类分析,并与主分量分析方法进行了实验比较,结果表明,类别保留投影方法在实现降维的同时能更好地识别样本的类别特征,从而可视化效果相比主分量分析要好得多,且能得到较好的聚类效果.  相似文献   

4.
基于视觉和语义融合特征的阶段式图像聚类   总被引:1,自引:0,他引:1  
针对互联网图像的特点,研究了图像聚类中的图像特征提取和聚类算法,定义了一个基于规则的线性特征融合函数,引入了自适应的参数选择机制对聚类粒度进行调整,提出了一个基于视觉和语义融合特征的阶段式聚类方法.新方法结合了不同层次的图像特征,利用现有多种聚类算法的优点对图像进行聚类,同时通过关键词权值计算,为每类赋予主题关键词,并将关键词重叠率高的类进行合并.基于均方差和用户评估的实验结果表明,新的聚类方法较传统的聚类方法具有更好的聚类效果.  相似文献   

5.
为了充分挖掘成对约束所隐含的信息来指导数据降维和数据聚类,提出一种基于加权成对约束投影的半监督聚类方法.该方法构造成对约束信息的k最近邻集并扩充成对约束集,分析成对约束实例包含的信息量并构造权系数矩阵,在加权成对约束信息的指导下求得投影矩阵,通过投影矩阵将样本数据投影到低维空间,使类内各点紧密分布,类间各点分散分布.同时,通过一种新的评价函数对k均值聚类算法进行改进,能够在尽量不违反成对约束的情况下优化聚类性能,实验结果表明,与现有半监督降维聚类算法相比,新方法能以较低的开销对高维数据进行聚类.  相似文献   

6.
为了获取高质量的隐式主题结果,提高服务聚类精度,解决服务描述文档文本短带来的语义稀疏性与噪声问题,提出词向量与噪声过滤优化的词对主题模型(BTM-VN). 该模型以词对为基础,拓展服务描述文档,获取额外的语义信息,设计利用主题分布信息进行代表词对概率计算的策略,通过在采样过程中计算代表词对矩阵,提高代表词对在当前主题的权重,降低噪声词对服务描述文档主题获取的干扰. 利用词向量筛选待训练的词对集合,减少共现意义低的词对组合,解决词对主题模型耗时较长的问题. 使用优化的密度峰值聚类算法对经BTM-VN训练后的服务主题分布矩阵进行聚类. 实验结果表明,基于BTM-VN的服务聚类方法在3种聚类评价指标上的表现均优于传统的服务聚类算法.  相似文献   

7.
针对如何有效地利用图像视觉信息与标注信息进行图像聚类的问题,提出了一种基于视觉单词与标注单词共生的聚类算法.在视觉特征空间,采用K-means算法对图像聚类,得到表征图像视觉信息的视觉单词,即聚类中心.在图像标注字空间,计算各聚类中心下标注单词的统计分布,建立视觉单词与标注单词共生矩阵,进而针对图像提取嵌入有视觉信息的标注词特征LDA(latent dirichlet allocation)主题模型作为最终聚类算法完成图像的聚类.通过对Pascal VOC 2007标注图像数据库进行的实验仿真以及对比试验结果表明,基于视觉单词与标注单词共生的聚类算法可以有效地利用图像的视觉信息与标注信息的互补特性,提高聚类算法的性能.  相似文献   

8.
为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统.用户向系统提交同一个主题的一组关键词后,系统自动合并多个搜索引擎返回的结果,从而构成一个有序的文档集合.对这个集合利用后缀树算法进行聚类,人工对聚类的结果进行有效与垃圾状态标注并生成训练集构造分类器.当用户提交该主题更多的关键词时,系统可以从各成员搜索返回的结果中自动识别并采集有效数据而过滤垃圾信息.实验结果显示,系统对定主题数据的平均有效信息识别率达到92%以上.  相似文献   

9.
基于文本写作常采用一个意思由多个不同写法的单词来表述,研究词义文本分类法被用来替代使用关键词分类算法以提高分类准确率.分析wordNet内Synset架构,认为一个兼顾词义以及词义间关系的词义文本分类系统可应用到网页分类中.该系统同时注意到固定的文本类别结构以及结构内不断增长的文件数目间的区别,加入了基于类别信息聚类方法的类别拓展的功能.仿真实验证明,该分类系统与现有的基于语义的分类系统相比,在分类准确度性能上能提高13%.基于类别信息类聚的文本拓展功能与采用基于相似度的类聚方法的系统相比获得了一个质量更高的新增类别.  相似文献   

10.
为了实现非平稳复杂背景干扰下的红外小目标检测,在特征选择阶段同时考虑了目标的强度、分布梯度以及与背景之间的阶越特性,并提取对比度、临域标准差以及多孔小波变换高频分量的模值三维特征予以描述.将目标检测过程视为特征空间中的两类分类问题,通过主分量分解获取背景的统计聚类参数,将目标像素特征向量视为背景特征聚类之外的异常点,并...  相似文献   

11.
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。针对规则碎纸片的复原问题,首先自动提取碎片的行间距特征,采用Mean-shift算法对所有碎片进行聚类分析,然后根据碎片边界的灰度特征,建立碎片之间的相似性矩阵,最后采用遗传算法将碎片进行拼接。  相似文献   

12.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

13.
将典型日负荷曲线的选取问题转化为基于统计学习的多元分类问题,利用概率潜在语义分析模型(PLSA)进行问题求解。方法首先通过K均值聚类和负荷曲线时段划分形成观测特征词和目标文档,通过阈值计算获得特征词-目标共生矩阵;然后基于Davies-Bouldin指标计算PLSA模型的最佳主题数目,并对模型参数求解获得每个目标文档中特征词的潜在主题;最后依据电力负荷曲线与特征词的对应关系形成新的聚类,并采用选取策略获得各聚类的典型日。实验表明,方法能够较好的反映节假日、气候等因素的影响,典型日选取合理可行。  相似文献   

14.
针对谱聚类算法计算复杂度高,不适用于合成孔径雷达图像分割的问题,利用谱聚类算法与权核k均值之间的等价性,提出一种基于局部相似性测度的SAR图像多层分割算法.首先提取图像中每个像素的小波纹理特征,利用每个像素点的纹理特征计算各自的局部尺度参数,进而构造像素点之间的邻接关系,然后利用最近邻规则对此邻接关系进行逐层合并,进行基础聚类和逐层细化实现像素点聚类,最终得到图像的分割结果.对人工纹理图像和SAR图像的分割结果表明了新算法避免了传统谱聚类算法对尺度参数的敏感性,获得了更优的分割性能.  相似文献   

15.
提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法.  相似文献   

16.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

17.
High dimensional data clustering, with the inherent sparsity of data and the existence of noise, is a serious challenge for clustering algorithms. A new linear manifold clustering method was proposed to address this problem. The basic idea was to search the line manifold clusters hidden in datasets, and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters. The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure. The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time. The proposed method is able to obtain high clustering accuracy for various data sets with different sizes, manifold dimensions and noise ratios, which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号