首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
传统的K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但计算复杂度较高,而且凝聚过程不可逆。结合网络舆情的特点,深入剖析了K-Means聚类算法和凝聚层次聚类算法的优缺点,对K-Means聚类算法进行改进。改进后算法的核心思想是,结合两种算法分别在初始点选择和聚类过程两个方面的优势,进行整合优化。通过实验分析及实际应用表明,改进后的文本聚类算法在很大程度上可以提高网络舆情信息聚类结果的准确性、有效性以及算法的效率。  相似文献   

2.
文章报告了文本挖掘技术的现状、文本挖掘的过程、文本挖掘研究的课题,最后对文本挖掘的前景做了展望。  相似文献   

3.
文章报告了文本挖掘技术的现状、文本挖掘的过程、文本挖掘研究的课题,最后对文本挖掘的前景做了展望。  相似文献   

4.
蔡坤  姜保庆 《福建电脑》2009,25(4):45-46
本文首先介绍文本挖掘的定义及一般处理过程。重点探讨了文本挖掘中的关健技术文本聚类。  相似文献   

5.
林立  胡侠  朱俊彦 《计算机工程》2010,36(22):64-65
提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果表明,该方法相较于传统摘要方法有更好的性能,能够有效地提高摘要的质量。  相似文献   

6.
Web内容挖掘技术研究   总被引:10,自引:4,他引:10  
简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等,讨论了多媒体文本分类挖掘方法。  相似文献   

7.
吕岚 《福建电脑》2011,27(3):40-41
本文分析了目前信息检索存在的问题,介绍了WEB文本挖掘的概念及处理过程,并提出了两种基于层次聚类的WEB文本挖掘技术并给予分析.  相似文献   

8.
基于语义的单文档自动摘要算法   总被引:1,自引:0,他引:1  
章芝青 《计算机应用》2010,30(6):1673-1675
单文档自动摘要的目的是在原始的文本中通过摘取、提炼主要信息,提供一篇简洁全面的摘要。自动摘要的主流方法是通过统计和机器学习的技术从文本中直接提取出句子,而单文档由于篇章有限,统计的方法无效。针对此问题,提出了基于语义的单文本自动摘要方法。该方法首先将文档划分为句子,然后计算每一对句子的语义相似度,通过运用改进型K-Medoids聚类算法将相似的句子归类,在每一类中选出最具代表性的句子,最后将句子组成文档摘要。实验结果表明,通过融合语义信息,该方法提高了摘要的质量。  相似文献   

9.
提出了将知网(HowNet),领域词典同聚类挖掘模型相结合的方法,解决传统的聚类挖掘缺乏处理深层语义信息的问题.该方法能够很方便地得到知识支持,更好地将语义相关的文本聚集到一起,增强了文本特征表示能力,从而实现文本聚类在某领域上的基于语义的挖掘.  相似文献   

10.
基于K-Means的文本层次聚类算法研究   总被引:6,自引:0,他引:6  
尉景辉  何丕廉  孙越恒 《计算机应用》2005,25(10):2323-2324
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。  相似文献   

11.
利用扩展锚点文本来分类网页   总被引:1,自引:0,他引:1  
刘红 《计算机应用研究》2004,21(3):112-113,124
在以往一些分类方法的基础上,通过分析网页自身的结构,提出了一种利用扩展锚点文本来对网页进行自动分类的方法。  相似文献   

12.
Web挖掘技术研究   总被引:13,自引:0,他引:13       下载免费PDF全文
张蓉 《计算机工程》2006,32(15):4-6
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。  相似文献   

13.
Web使用挖掘综述   总被引:2,自引:0,他引:2  
互联网使用信息的挖掘就是对互联网用户网络访问行为进行分析挖掘,以获得描述其中内存规律的 模式。全面介绍了Web使用挖掘的应用价值、挖掘的数据源、数据的预处理、挖掘的方法等。  相似文献   

14.
基于Web浏览内容和行为相结合的用户兴趣挖掘   总被引:18,自引:0,他引:18  
赵银春  付关友  朱征宇 《计算机工程》2005,31(12):93-94,198
通过对用户浏览的Web页面进行聚类分析,并与采用线性回归分析用户浏览行为相结合,得到了采用加权关键字矢量表示的用户兴趣模型,实验证明该模型能较好地描述用户的兴趣类型及兴趣浓度,提高个性化信息服务的效率。  相似文献   

15.
Web访问模式聚类中引入Web内容挖掘的方法   总被引:3,自引:0,他引:3       下载免费PDF全文
陈正明  马光志 《计算机工程》2006,32(18):70-71,7
在用户访问模式的聚类过程中引入页面的相似性因子,从用户访问的主要内容和访问路径两个方面来度量访问模式的相似性,针对以往对这种集成研究忽略的问题进行深入的探讨,提出了有效的解决方法,合理地降低了聚类结果的类别数目,能更准确地发现一个网站的潜在用户类。  相似文献   

16.
Distributed Web Log Mining Using Maximal Large Itemsets   总被引:2,自引:0,他引:2  
We introduce a partitioning-based distributed document-clustering algorithm using user access patterns from multi-server web sites. Our algorithm makes it possible to exploit simultaneously adaptive document replication and persistent connections, two techniques that are most effective in decreasing the response time that is observed by web users. The algorithm first distributes the user access data evenly among the servers by using a hash function. Then, each server generates a local clustering on its fair share of the user sessions records by employing a traditional single-machine document-clustering algorithm. Finally, those local clustering results are combined together by using a novel procedure that generates maximal large itemsets of web documents. We present preliminary experimental results and discuss alternative approaches to be pursued in the future. Received 30 August 2000 / Revised 30 January 2001 / Accepted in revised form 9 May 2001  相似文献   

17.
如何在数量巨大的Internet中快速准确搜索到符合要求的Web页是一个值得探讨的重要课题。构造一种能够根据句式和词频对Web文本自动模型,运用人工免疫算法使该模型具有较高的聚类精度和自发现能力,实验结果表明,该模型不仅能够有效对各类Web文本进行,保持较低的错误肯定率和错误否定率,还具有很强的自适应性和更新能力,在算法复杂度上也具备一定优势。  相似文献   

18.
Document clustering is an intentional act that reflects individual preferences with regard to the semantic coherency and relevant categorization of documents. Hence, effective document clustering must consider individual preferences and needs to support personalization in document categorization. Most existing document-clustering techniques, generally anchoring in pure content-based analysis, generate a single set of clusters for all individuals without tailoring to individuals' preferences and thus are unable to support personalization. The partial-clustering-based personalized document-clustering approach, incorporating a target individual's partial clustering into the document-clustering process, has been proposed to facilitate personalized document clustering. However, given a collection of documents to be clustered, the individual might have categorized only a small subset of the collection into his or her personal folders. In this case, the small partial clustering would degrade the effectiveness of the existing personalized document-clustering approach for this particular individual. In response, we extend this approach and propose the collaborative-filtering-based personalized document-clustering (CFC) technique that expands the size of an individual's partial clustering by considering those of other users with similar categorization preferences. Our empirical evaluation results suggest that when given a small-sized partial clustering established by an individual, the proposed CFC technique generally achieves better clustering effectiveness for the individual than does the partial-clustering-based personalized document-clustering technique.  相似文献   

19.
For the past few decades the mainstream data clustering technologies have been fundamentally based on centralized operation; data sets were of small manageable sizes, and usually resided on one site that belonged to one organization. Today, data is of enormous sizes and is usually located on distributed sites; the primary example being the Web. This created a need for performing clustering in distributed environments. Distributed clustering solves two problems: infeasibility of collecting data at a central site, due to either technical and/or privacy limitations, and intractability of traditional clustering algorithms on huge data sets. In this paper we propose a distributed collaborative clustering approach for clustering Web documents in distributed environments. We adopt a peer-to-peer model, where the main objective is to allow nodes in a network to first form independent opinions of local document clusterings, then collaborate with peers to enhance the local clusterings. Information exchanged between peers is minimized through the use of cluster summaries in the form of keyphrases extracted from the clusters. This summarized view of peer data enables nodes to request merging of remote data selectively to enhance local clusters. Initial clustering, as well as merging peer data with local clusters, utilizes a clustering method, called similarity histogram-based clustering, based on keeping a tight similarity distribution within clusters. This approach achieves significant improvement in local clustering solutions without the cost of centralized clustering, while maintaining the initial local clustering structure. Results show that larger networks exhibit larger improvements, up to 15% improvement in clustering quality, albeit lower absolute clustering quality than smaller networks.  相似文献   

20.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号