共查询到16条相似文献,搜索用时 109 毫秒
1.
2.
3.
4.
Web文本挖掘是Web数据挖掘的一个重要研究领域.文本挖掘的主要方法是文本分类和聚类.本文主要讨论了在文本挖掘中文本的表示,以及文本聚类的算法描述. 相似文献
5.
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。 相似文献
6.
提出了一种新的Web文本聚类算法WTCA——基于自组织特征映射神经网络(SOM)的聚类算法。该算法分为训练SOM网络及聚类分析两个阶段,具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪音能力强。该算法应用到现代远程教育网,可以对各类远程教育站点上收集的文本资料信息自动进行聚类分析;从海量Web文本信息源中快速有效地获取重要的知识。 相似文献
7.
8.
用于Web文档聚类的基于相似度的软聚类算法 总被引:4,自引:1,他引:3
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。 相似文献
9.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。 相似文献
10.
11.
基于Web的文本挖掘技术研究 总被引:2,自引:0,他引:2
许高建 《计算机技术与发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
12.
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
13.
14.
Web文本挖掘技术研究 总被引:221,自引:1,他引:220
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了 相似文献
15.