首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 82 毫秒
1.
可能性C-均值(PCM)聚类作为经典的基于原型的聚类方法,在处理高维数据集时性能骤降,无法检测出高维空间中嵌入的有效子空间。针对此不足,在PCM基础上引入子空间聚类机制,提出子空间可能性聚类算法SPC。该方法保留了PCM方法的优点,且对高维数据具有较好的适应性,能够有效检测各类所处的子空间。仿真实验验证了SPC算法的有效性。  相似文献   

2.
《软件》2017,(12)
随着网络的发展,互联网已经成为了最重要的新闻媒介。网络上的新闻报道能广泛传播,对社会有着深刻的影响。因此互联网新闻事件的监督和挖掘分析,对政府,企业有着巨大的价值。在进行新闻报道分析的时候,最为重要的任务之一就是把网络上类别杂乱,来源广泛的新闻进行识别和归类。新闻归类主要是基于通用的聚类的方法,其中一项基本的技术就是新闻报道相似度计算。根据需求不同,新闻聚类类别可以是一个事件,或者是一领域。本文针对事件的新闻报道聚类,提出了一种混合特征的相似度计算方法。采用了Tf-Idf和n-gram结合的向量空间模型来得到文本相似度,再通过规则识别出新闻文本中的时间,地点等关键信息,进行关键信息匹配度计算,最后再把两个相似度结合作为最终匹配度。实验表明,混合特征的方法明显提高了事件聚类的准召率。  相似文献   

3.
跨语言新闻话题发现是将互联网上报道相同事件的不同语言新闻进行自动归类,由于不同语言文本很难表示在同一特征空间下,对其共同话题的挖掘就比较困难。然而类似的新闻事件在不同语言文本表达上具有相同的新闻要素,这些要素之间关联能够体现出新闻事件的关联性,因此,针对汉越新闻话题发现问题,提出基于文档图聚类的汉越双语新闻话题发现方法。首先提取汉越新闻文本新闻要素,借助文本中要素相似度计算汉越文本相关度,构建汉越双语文本图模型,获得新闻文本相似度矩阵;然后,借助图模型中文本间的传播特点,采用随机游走算法对相似度矩阵进行调整,最后利用信息传递算法进行聚类。实验结果表明提出的方法取得了很好的效果。  相似文献   

4.
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。  相似文献   

5.
一种中文微博新闻话题检测的方法   总被引:3,自引:3,他引:3  
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。  相似文献   

6.
提出基于随机初始化、参数扰动和特征子集映射的多扰动的局部自适应软子空间聚类(LAC)融合算法(MLACE)。MLACE具有以下特点:(i)多扰动融合:从初始化、参数和特征子集等不同侧面,探测数据内部结构,使之相互融合,从而达到改善聚类正确性的目的;(ii)融合信息提升:根据LAC算法输出的子空间权重矩阵,定义数据属于每一类的概率,形成提升的融合信息;(iii)融合一致性函数改进:融合信息的形式由0/1二值信息转换成[0,1]实值信息,因此,一致性函数采用了性能较优的实数值融合算法Fast global K-means来进一步改善融合正确性。实验选取2个仿真数据库和5个UCI数据库测试MLACE的聚类正确性,实验结果表明,MLACE聚类正确性优于K-means、LAC、基于参数扰动LAC融合算法(P-MLACE)。  相似文献   

7.
特征加权距离与软子空间学习相结合的文本聚类新方法   总被引:1,自引:0,他引:1  
王骏  王士同  邓赵红 《计算机学报》2012,35(8):1655-1665
文本数据维数高、数据分布稀疏、不同类别的特征相互重叠,这为聚类分析提出了挑战.针对文本数据的这一特点,将特征加权技术与软子空间相结合,基于模糊聚类的算法框架,提出了一种适用于高维文本数据的软子空间模糊聚类新方法.首先,基于加权范数理论,提出了新的特征加权距离计算方法.接着,将其与软子空间学习的理论框架相结合,提出了面向模糊聚类的新的目标学习准则.通过向约束条件中引入熵指数r,从而扩展了模糊指数m的取值范围,并给出了物理解释.基于Zangwill收敛定理对算法的全局收敛性给出理论证明.实验表明,文中算法可以使软子空间学习和聚类分析同时进行,其性能比现有的相关算法有了较大的提高.  相似文献   

8.
基于k最相似聚类的子空间聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。  相似文献   

9.
为了提高新闻话题聚类精度,论文提出一种基于Word2Vec的改进密度峰值聚类算法。首先基于Word2Vec提出一种新闻文本的向量表示方法,然后针对密度峰值聚类算法存在的问题,提出一种基于KNN改进的密度峰值聚类算法。该算法首先基于KNN计算样本的局部密度,然后通过最小二乘法线性拟合选取初始聚类中心并对剩余样本进行指派形成聚类结果。在搜狐新闻数据集上的实验结果验证了该算法的有效性。  相似文献   

10.
子空间聚类能在高维空间挖掘隐藏在不同低维子空间中的簇类,能在分类的基础上有效降维。针对目前入侵检测实时性和准确性的要求,提出子空间聚类ASCOD算法,该算法内嵌离群点扫描处理,能动态计算最优的算法参数,将该算法应用于入侵特征选择领域,实验结果证明这种策略的抗干扰能力较强,并能高效进行特征选择,提高了入侵检测的检测速度和精度。  相似文献   

11.
胡学刚  吴勇 《计算机工程》2009,35(23):212-213,
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

12.
吕楠  罗军勇  刘尧  杨慧洁 《计算机工程》2009,35(23):71-72,7
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

13.
针对协同过滤算法仅依赖评分矩阵产生预测,推荐准确度不高的问题,提出一种结合时间加权和LDA聚类的混合推荐算法。先构造时间柱模型,根据用户评分及时刻生成时间加权相似度,采用加权平均偏差法生成时间加权的预测评分;再对项目类型进行LDA聚类生成主题项目簇,经过概率转移生成LDA聚类的预测评分;最后通过调节因子确定两种评分的权重系数,从而线性加权生成最终评分。实验结果表明,新算法能够根据具体的近邻数目给出合理的推荐,提高推荐的准确度。  相似文献   

14.
目前的话题追踪方法无法对话题的发展演化进行全局的把握。为了准确地发现话题中各事件的发展演化关系,提出了一种基于事件多向量模型的事件演化分析算法。该方法通过子话题间的相似度计算来构建话题中的事件,利用事件向量间的相似度计算得到话题演化的具体过程及细节。通过在现实数据中的实验,该方法能够有效地反映话题中事件的来龙去脉。  相似文献   

15.
Clustering time series is a problem that has applications in a wide variety of fields, and has recently attracted a large amount of research. Time series data are often large and may contain outliers. We show that the simple procedure of clipping the time series (discretising to above or below the median) reduces memory requirements and significantly speeds up clustering without decreasing clustering accuracy. We also demonstrate that clipping increases clustering accuracy when there are outliers in the data, thus serving as a means of outlier detection and a method of identifying model misspecification. We consider simulated data from polynomial, autoregressive moving average and hidden Markov models and show that the estimated parameters of the clipped data used in clustering tend, asymptotically, to those of the unclipped data. We also demonstrate experimentally that, if the series are long enough, the accuracy on clipped data is not significantly less than the accuracy on unclipped data, and if the series contain outliers then clipping results in significantly better clusterings. We then illustrate how using clipped series can be of practical benefit in detecting model misspecification and outliers on two real world data sets: an electricity generation bid data set and an ECG data set.  相似文献   

16.
基于异时间窗划分的时间序列聚类   总被引:2,自引:1,他引:2       下载免费PDF全文
针对相同时间窗对时间序列进行子序列划分的缺点,提出一种异时间窗的子序列划分方法。为解决划分得到的子序列长度不同,而使用动态时间弯曲算法进行子序列相似性度量的计算速度慢的问题,给出一种不规则时间序列距离度量算法。对异时间窗的子序列划分方法和不规则时间序列距离度量算法进行了实验,结果证明了二者的优越性。  相似文献   

17.
何源  张文生  葛铭  叶晨洲 《计算机工程》2008,34(10):244-246
在大型火电厂烧煤锅炉的运行过程中,受热面的积灰是降低锅炉运行效率和安全性的一个重要原因。目前,主要采用高压空气或者蒸汽把积灰吹掉。吹灰的困难在于确定应该何时吹灰,该文提出一种基于时序聚类的新方法,从经过预处理的锅炉历史数据中抽取出代表吹灰的模式,建立吹灰模型,用来预测吹灰时间。该方法在应用到一个900 MW的超临界锅炉上时,表现出较好的效果。  相似文献   

18.
网络攻击连接具有行为的多变性和复杂性等特征,利用基于传统聚类的行为挖掘技术来构建异常入侵检测模型是不可行的。针对网络攻击行为的特点,提出了基于特征选择的模糊聚类异常入侵模型。首先通过层次聚类算法改善了FCM 聚类算法结果对初始聚类中心的敏感性,再利用遗传算法的全局搜索能力克服了其在迭代时易陷入局部最优的缺点,并将它们结合构成一种AGFCM 算法;然后采用信息增益算法对网络攻击连接数据集的特征属性进行排序,同时利用约登指数来删减数据集的特征属性以确定特征属性容量;最后利用低维特征属性集和改进的FCM 聚类算法构建了异常入侵检测模型。实验结果表明该模型对绝大多数的网络攻击类型具有很好的检测能力,为解决异常入侵检测模型的误警率和检测率等问题提供了一种可行的解决途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号