首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
张万山  肖瑶  梁俊杰  余敦辉 《计算机应用》2014,34(11):3144-3146
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。  相似文献   

2.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

3.
面向Web的文本信息挖掘研究   总被引:2,自引:0,他引:2       下载免费PDF全文
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。Web挖掘可以快速有效地获取所需要的信息。基于Web的文本挖掘是数据挖掘的重要组成部分,探讨了Web文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

4.
徐甜  肖新峰 《微计算机信息》2007,23(21):284-285,283
Web文本挖掘是Web数据挖掘的一个重要研究领域.文本挖掘的主要方法是文本分类和聚类.本文主要讨论了在文本挖掘中文本的表示,以及文本聚类的算法描述.  相似文献   

5.
Web文本挖掘     
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。  相似文献   

6.
提出了一种新的Web文本聚类算法WTCA——基于自组织特征映射神经网络(SOM)的聚类算法。该算法分为训练SOM网络及聚类分析两个阶段,具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪音能力强。该算法应用到现代远程教育网,可以对各类远程教育站点上收集的文本资料信息自动进行聚类分析;从海量Web文本信息源中快速有效地获取重要的知识。  相似文献   

7.
文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况,之后着力对当前基于Web文本挖掘的一般处理过程进行了详细的描述,同时总结了文本分类和文本聚类的一些主要算法,在文章的最后对文本挖掘在信息技术中的发展前景做了合理的预测和展望。  相似文献   

8.
用于Web文档聚类的基于相似度的软聚类算法   总被引:4,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

9.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。  相似文献   

10.
针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过ICA分解获得类别信息。利用LSI的词共现分析和文本降噪能力提高聚类准确率。实验表明聚类平均准确率达到90%以上。  相似文献   

11.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

12.
许高建 《微机发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

13.
在电子商务网络资讯管理系统中,为了将用户检索结果网页按照不同主题划分显示给用户,帮助用户快速定位所需信息,有效完善用户体验,针对电子商务领域网页文本聚类面临的问题,提出融合自定义领域词典、基于聚类特征词典的特征选择和基于类别领域词表的初始中心点构造等策略的解决方案。实验结果表明,该方案能有效提高电子商务领域的网页文本聚类质量。对于其它特定领域文本聚类研究具有一定的参考价值。   相似文献   

14.
Web文本挖掘技术研究   总被引:221,自引:1,他引:220  
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了  相似文献   

15.
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记文本,为监督学习找到分类依据,并结合朴素贝叶斯增量学习方式进行分类器的学习.本文进一步用估计分类误差损失的方法平衡选取候选样本,提高了分类准确率,实现了应用范围更加广泛的无标记文本分类学习模型.  相似文献   

16.
特征选择和分类算法是网页文本聚类中最关键的技术。提出对网页文本提取特征值后,利用潜在语义索引对网页文本降维,采用支持向量聚类(SVC)算法对降维后的特征向量进行聚类,以此进行文本分类。实验结果显示具有较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号