首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

2.
Web文本挖掘系统及聚类算法的研究   总被引:1,自引:0,他引:1  
唐菁 《电信建设》2004,(2):24-28
本文提出了一种新的Web文本挖掘系统总体结构模型DFSSM及文本聚类算法TLDFSSM,并结合电信行业应用背景实现了Web文本挖掘原型系统(WTMS).该系统能对具有不同价值的用户群特征进行文本聚类分析.最终实现客户的保持率和价值的提升.  相似文献   

3.
基于Web的文本挖掘研究   总被引:10,自引:6,他引:4  
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

4.
网络提供了海量的共享资源,人们需要从网络上搜索出自己感兴趣的信息,由此产生了Web挖掘的问题。Web挖掘就是借用数据挖掘技术来实现的。Web挖掘主要是文本信息的挖掘,本文主要研究了实现文本挖掘的层次凝聚类算法,对于传统的算法存在的问题,提出了改进的算法,研究了相似度值对整个算法过程的影响,设计了一个动态改变相似度值的计算公式。  相似文献   

5.
《现代电子技术》2019,(7):177-180
为研究聚类算法在高校学生微博的应用情况,针对K-means算法和分层聚类算法在聚类中心选择不精确的问题,基于高校学生使用微博的背景,对微博文本挖掘应用中聚类算法的应用进行改进。通过文本的矢量表示、文本相似度计算和聚类算法的实现,验证了聚类算法在微博热门话题检测的准确性和效率,并针对实验数据提出几点针对性的措施。  相似文献   

6.
文本聚类是数据挖掘的核心技术,能帮助用户有效地导航、总结和组织文本信息。本文通过对文本聚类的应用研究,探讨了几种聚类算法的原理与特点,提出并分析了K-means算法与层次凝聚算法的具体实现步骤。  相似文献   

7.
Web数据挖掘已经成为数据挖掘研究领域的热点,尤其是在电子商务网站的设计和使用中。文章阐述了在电子商务中如何运用Web数据挖掘技术,为企业更有效地确认目标市场、改进决策、获得更大的竞争优势提供帮助,并提出了一种Web数据挖掘系统的设计方案和实现方式。同时,对k-means聚类算法进行了优劣分析,并提出通过改变初始聚类中心的选取规则来提高算法的运行效率以及计算结果的准确度。  相似文献   

8.
Web服务器日志中记录了用户的浏览模式,为了从中提取出具有相似访问模式的用户群,对其提供个性化服务,提出一种针对Web日志的分析方法。通过构建UserID-URL关联矩阵,引入加权关联矩阵,提出一种基于加权矩阵的聚类算法——多标记传播算法。实验表明,该算法在Web日志挖掘中进行用户聚类和页面聚类是高效可靠的。  相似文献   

9.
李健  马力  武波 《现代电子技术》2004,27(23):10-11,14
研究了一种基于Web文本聚类的用户兴趣发现方法.他通过Web文档信息获取,文本的形式表示,以及Web文本聚类方法最终提取用户兴趣知识,并给出了一个设计模型。  相似文献   

10.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

11.
随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,人们往往不能有效地获取、利用所需的网络知识资源.为了更好地利用网络知识资源,需要应用自动化、智能化的数据挖掘、信息提取方法.Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据.针对现有常用文本表示方法的局限性,本文提出了一种基于命名实体和词向量相结合的网络知识资源表示学习模型.并在算法知识领域内进行实现与应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示本文提出的方法在这些任务上取得了较好的效果.  相似文献   

12.
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。  相似文献   

13.
针对个人技术博客缺乏深层次的主题挖掘,较少利用文本挖掘或机器学习算法研究其领域方向和演化态势的问题,提出了一种基于LDA模型和社交网络的个人技术博客文本挖掘算法.首先,通过Python抓取CSDN论坛的博客文本;其次,利用LDA模型和层次聚类算法挖掘技术博客的核心主题,揭示其博客创作的演化历程;最后,通过社交网络分析法...  相似文献   

14.
周国娟 《通信技术》2010,43(11):74-77
为了研究并提高文本的聚类算法的性能,根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的聚类处理的研究中。在文本的聚类处理研究中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,从而最终将相似文本进行聚合。对改进的算法进行实验后的结果证明,这种新的算法可以使文本聚类的准确度提高,具有良好的聚类效果,能有效提高查询的文本召回率。蚁群算法在文本聚类中的应用是可行的。  相似文献   

15.
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度.  相似文献   

16.
为了实现Web服务请求数据的快速聚类,并提高聚类的准确率,提出一种基于增量式时间序列和最佳任务调度的Web数据聚类算法。该算法进行了Web数据在时间序列上的聚类定义,并采用增量式时间序列聚类方法。先通过数据压缩形式降低Web数据的复杂性,再进行基于服务时间相似性的时间序列数据聚类;最后针对Web集群服务的最佳服务任务调度问题,通过以服务器执行能力为标准来分配服务任务。仿真实验结果表明,相比基于网格的高维数据层次聚类算法和基于增量学习的多目标模糊聚类算法,该文的算法在聚类时间、聚类精度、服务执行成功率、聚类失真度上均获得了更好的性能。  相似文献   

17.
谱聚类算法是近年来国际上机器学习领域的一个新的研究热点,但其在文本聚类上的应用还较少。设计了一种文本聚类谱算法,首先构建文本相似度矩阵并进而得到拉普拉斯矩阵,随后对其进行特征值分解获得前k个最小特征向量,最后使用K均值算法(K-means)获得k个文本簇。在真实文本数据集上进行了实验,与超球K均值算法相比,本文算法获得了更好的聚类结果。  相似文献   

18.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

19.
基于蚁群算法的文本分类和聚类   总被引:1,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

20.
网络敏感信息挖掘过程中,敏感信息和正常信息的特征不同,具有较高的遮蔽性。利用传统敏感信息挖掘方法时,固有的敏感信息被遮蔽,无法进行敏感信息的准确挖掘。提出基于TF-IDF改进聚类算法的网络敏感信息挖掘方法,通过TF-IDF方法获取网络敏感信息文本,在网络敏感信息文本中获取有价值的敏感信息特征,采用该信息完成聚类算法,对全部敏感信息特征进行聚类分析,完成网络敏感信息的挖掘。实验结果说明,所提方法进行网络敏感信息挖掘,具有较高的挖掘效率和精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号