首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
一种快速有效的Web文档聚类方法   总被引:2,自引:0,他引:2  
以矢量空间模型VSM为Web文本的表示方法,提出了一种基于关联规则的Web文档聚类方法。实验证明:该方法能在保证文档聚类高精度的同时,依然保持高效率,其聚类性能明显优于传统Web文档聚类算法。  相似文献   

2.
提出一种新的基于术语簇和关联规则的文档聚类方法。首先对文档集合进行分词,根据术语之间的平均互信息形成术语簇,用术语簇来表示文档矢量空间模型,使用关联规则挖掘文档的初始聚类,对此进行聚类分析获得最终的文档聚类。实验结果表明,与传统的聚类方法相比,其运行速度快,聚类效果和聚类质量都有明显提高。  相似文献   

3.
目前常用向量空间模型 VSM(vector space model)表示文档,造成的高维问题制约了其实际应用的效果。采用了一种高性能特征选择函数,在构建VSM时选取对区分类别贡献较大的特征词,因此有效地降低了特征空间的纬度,大大提高了系统的效率,改善了聚类的效果。通过真实数据集上的实验,证明其性能优于传统方法。  相似文献   

4.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

5.
基于关联规则的Web文档分类   总被引:5,自引:2,他引:5  
在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来.有鉴于此,论文提出一种基于关联规则的Web文档分类方法.该方法采用事务概念,主要考虑两方面的问题:①在文档训练集中发现最优的词条关联规则;②用这些规则构建一个Web文档分类器.试验表明该分类器性能良好,训练速度快,产生的规则易于被人理解,而且容易更新和调整.  相似文献   

6.
基于关联规则的多层次Web聚类法研究   总被引:1,自引:0,他引:1  
提出了基于关联规则的多层次、超图分割聚类方法,用于对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析;在挖掘出满足一定Support的关联规则的基础上进行聚类,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。  相似文献   

7.
Web用户聚类是通过分析用户会话,将具有相同或相似访问特征的用户聚为一类。在会话相似性度量方面综合考虑了网页浏览时间和访问频次两个因素,并考虑到用户个人习惯、能力等因素对浏览时间的影响,将浏览时间处理为RDP(Reduce the Differences in Personality)浏览时间,以降低其个性特征。为此,提出一种基于用户特性的RDPk-means聚类算法。实验表明,该算法可以有效实现用户会话的聚类,聚类结果客观合理。  相似文献   

8.
支持个性化推荐的Web面关联规则挖掘算法   总被引:3,自引:0,他引:3  
分析了应用于个性化推荐的Web页面关联规则的特点,提出了“壹支持数下k关联规则”的思想,根据这一思想设计、实现了一种应用于个性化推荐的Web页面关联规则挖掘算法——PARM(Pageview Association Rule Mining)及频繁项集的Freq-Sdt-Tree存储结构,在产生频繁项的同时挖掘关联规则,因而能提高效率。实验证明在个性化推荐系统中PARM算法的效率明显高于FP-Growth算法。  相似文献   

9.
提出了一种基于粒计算Web文档聚类(WDCGrc)方法。该方法通过TF-IDF法则计算文档词条的权值,采取设定文档阈值和平均权值相结合的方法实行降维,抽取出每篇文档的主干词;建立了文档的主干词和二进制粒之间的转换,提出了基于粒计算提取文档间的关联规则算法来获取文档间的频繁项集,由频繁项集形成初始聚类,使用优化算法对初始聚类进行优化,得到最终聚类结果。实验结果表明,该方法切实有效,聚类质量较好。  相似文献   

10.
时域数据的挖掘是数据挖掘领域经常遇到的问题。而时域关联规则的发现研究是关联规则的一个重要研究课题。该文在对周期关联规则进行深入研究的基础上,形式化定义了基本的时域关联规则概念,并提出了基于Apriori的发现周期关联规则的CCAR算法。CCAR的核心思想是首先把各项目按照周期时间分布进行聚类,根据聚类结果把每个项目分成几个动态的有效时间区域。在应用Apriori算法时,用项目的各个时间区域扩展项目集Ⅰ,然后根据作者提出的带时间属性的JOIN操作由Lk-1生成Ck,并由约简操作删除Ck中不满足条件的候选频繁项目集以提高算法的效率。算法理论分析和实验都表明CCAR是有效的。  相似文献   

11.
基于商品分类信息的关联规则聚类   总被引:11,自引:0,他引:11  
关联规则挖掘经常产生大量的规则,为了帮助用户做探索式分析,需要对规则进行有效的组织。聚类是一种有效的组织方法,已有的规则聚类方法在计算规则间距离时都需要扫描原始数据集,效率很低,而且聚类结果是固定数目的簇,不利于探索式分析.针对这些问题,提出了一种新的方法,它基于商品分类信息度量规则间的距离,避免了耗时的原始数据集扫描;然后用OPTICS聚类算法产生便于探索式分析的聚类结构。最后用某个零售业公司的实际交易数据做了实验,并通过可视化工具演示了聚类效果,实验结果表明此方法是实用有效的。  相似文献   

12.
王勇  李战怀  张阳 《计算机工程》2006,32(12):39-41
目前许多研究关注如何利用序列关联规则预测用户最近的HTTP请求,这些研究主要利用次序信息或时间信息来进行剪枝,以提高预测的精度。该文对不同序列关联规则进行了分析和比较,给出了不同次序信息和时间信息的条件下各种序列模式挖掘算法。并使用实验比较这些算法的预测精度。通过对实验结果的分析,为进一步提高预测的精度指明了方向。  相似文献   

13.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

14.
提出一种新的聚类算法,分析待考察属性间的灰关联度,将其转化为属性权值,用于连通分支聚类的距离量度。该算法被用于处理铝电解工业生产中的分类问题。实验结果证明,它在一定程度上克服了欧氏距离的缺陷,能反映属性间的相互影响,提高聚类质量和性能。  相似文献   

15.
介绍了Web挖掘的基本概念和分类,通过关联规则对Web使用数据进行深层次的分析,从而挖掘出有意义的模式及规则,以利于设计Web站点时,将关联的产品进行捆绑销售.  相似文献   

16.
一种基于词共现的文档聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
常鹏  冯楠  马辉 《计算机工程》2012,38(2):213-214
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。  相似文献   

17.
With the wider growth of web-based documents, the necessity of automatic document clustering and text summarization is increased. Here, document summarization that is extracting the essential task with appropriate information, removal of unnecessary data and providing the data in a cohesive and coherent manner is determined to be a most confronting task. In this research, a novel intelligent model for document clustering is designed with graph model and Fuzzy based association rule generation (gFAR). Initially, the graph model is used to map the relationship among the data (multi-source) followed by the establishment of document clustering with the generation of association rule using the fuzzy concept. This method shows benefit in redundancy elimination by mapping the relevant document using graph model and reduces the time consumption and improves the accuracy using the association rule generation with fuzzy. This framework is provided in an interpretable way for document clustering. It iteratively reduces the error rate during relationship mapping among the data (clusters) with the assistance of weighted document content. Also, this model represents the significance of data features with class discrimination. It is also helpful in measuring the significance of the features during the data clustering process. The simulation is done with MATLAB 2016b environment and evaluated with the empirical standards like Relative Risk Patterns (RRP), ROUGE score, and Discrimination Information Measure (DMI) respectively. Here, DailyMail and DUC 2004 dataset is used to extract the empirical results. The proposed gFAR model gives better trade-off while compared with various prevailing approaches.  相似文献   

18.
采用的聚类思想是,不替换随机选取的聚类代表,按语义相关的原则界定对象,合并相似度较大的聚类,分解稀疏聚类,对未有归宿的对象再给机会聚类。  相似文献   

19.
随着网络技术的飞速发展,SVG成为矢量图形发布的新一代标准,越来越多的SVG文档涌现出来。SVG文档中隐藏着大量有趣的空间信息,因而如何从SVG文档中发现有趣的空间信息成为数据挖掘领域中值得研究的问题。讨论空间关联规则的挖掘,采用多维多层交叉关联规则挖掘技术,综合利用SVG文档中的空间信息和非空间信息进行挖掘,可以较好地从SVG文档中挖掘隐藏的空间关联规则。  相似文献   

20.
李慧李岩  王兴芳 《微机发展》2007,17(10):116-119
随着网络技术的飞速发展,SVG成为矢量图形发布的新一代标准,越来越多的SVG文档涌现出来。SVG文档中隐藏着大量有趣的空间信息,因而如何从SVG文档中发现有趣的空间信息成为数据挖掘领域中值得研究的问题。讨论空间关联规则的挖掘,采用多维多层交叉关联规则挖掘技术,综合利用SVG文档中的空间信息和非空间信息进行挖掘,可以较好地从SVG文档中挖掘隐藏的空间关联规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号