共查询到19条相似文献,搜索用时 140 毫秒
1.
自组织映射(SOM)算法作为一种聚类和高维可视化的无监督学习算法,为进行中文Web文档聚类提供了有力的手段。但是SOM算法天然存在着对网络初始权值敏感的缺陷,从而影响聚类质量。为此,引进遗传算法对SOM网络加以优化。提出了以遗传算法优化SOM网络的文本聚类算法(GSTCA);进行了对比实验,实验表明,改进后的算法GSTCA比SOM算法在Web中文文档聚类中具有更高的准确率,其F-measure值平均提高了14%,同时,实验还表明,GSTCA算法对网络初始权值是不敏感的,从而提高了算法的稳定性。 相似文献
2.
3.
4.
文本聚类的核心问题是找到一种优化的聚类算法对文本向量进行聚类,是典型的高维数据聚类,提出一种基于自组织神经网络SOM和人工免疫网络aiNet的两阶段文本聚类算法TCBSA。新算法先用SOM神经网络进行聚类,把高维的文本数据映射到二维的平面上,然后再用aiNet对文本聚类。该方法利用SOM神经网络对高维数据降维的优点,克服了人工免疫网络对高维数据的聚类能力差的缺点。仿真实验结果表明该文本聚类算法不仅是可行的,而且具有一定的自适应能力和较好的聚类效果。 相似文献
5.
基于SOM算法实现的文本聚类 总被引:14,自引:0,他引:14
以自组织特征映射(Self-organizing map,SOM)算法作为理论基础,实现了对 文本文档的聚类,并且给出了相应的类别标注,同时对聚类的准确度进行了评价,由于准确 度较低而后提出了把tf·idf计算词权重的方法应用到SOM算法的输入文本向量中去,因此提 高了聚类的平均准确度。 相似文献
6.
7.
基于SOM算法的文本聚类实现 总被引:2,自引:0,他引:2
以自组织映射(Self-organizing Map,SOM)算法作为理论基础,实现对文本聚类,并采用U矩阵进行可视化表示。通过对聚类结果的分析,表明SOM算法具有较好的聚类效果。 相似文献
8.
9.
随着软件数量的急剧增长以及种类的日益多样化,挖掘软件需求文本特征并对软件需求特征聚类,成为了软件工程领域的一大挑战。软件需求文本的聚类为软件开发过程提供了可靠的保障,同时降低了需求分析阶段的潜在风险和负面影响。然而,软件需求文本存在离散度高、噪声大和数据稀疏等特点,目前有关聚类的工作局限于单一类型的文本,鲜有考虑软件需求的功能语义。文中鉴于需求文本的特点和传统型聚类方法的局限性,提出了融合自注意力机制和多路金字塔卷积的软件需求聚类算法(SA-MPCN&SOM)。该方法通过自注意力机制捕获全局特征,然后基于多路金字塔卷积从不同窗口的通路深度挖掘需求文本特征,使得感知的文本片段逐倍增加,最终融合多路文本特征,利用SOM完成聚类。在软件需求数据上的实验表明,所提方法能较好地挖掘需求特征并对其聚类,性能上优于其他特征提取方式和聚类算法。 相似文献
10.
一种基于SOM和K-means的文档聚类算法 总被引:9,自引:0,他引:9
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。 相似文献
11.
Web文本聚类算法的分析比较 总被引:2,自引:0,他引:2
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。 相似文献
12.
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
13.
基于Web的文本挖掘技术研究 总被引:2,自引:0,他引:2
许高建 《计算机技术与发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
14.
15.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。 相似文献
16.
在现有的搜索文本中,存在大量的不确定文本结构和内容,使得常规的聚类算法难以实现,并且文本搜索的结果没有进行类聚,造成搜索结果集合数据量非常庞大。提出了基于模糊集的文本搜索的聚类分析的方法,通过模糊技术对异构数据进行处理,可以改善算法实现的时间和空间的复杂度,减少文本处理的维度,提高算法的鲁棒性,对算法的实现给出了实例分析。通过与其他聚类算法的实测数据的比对分析,验证了算法实现的精确性和效率性。 相似文献
17.
建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。 相似文献
18.
随着Internet技术的高速发展,如何从海量的Web信息中快速而有效地获得所需信息也就成为一项重要课题,而数据挖掘技术是解决这一难题的有效办法。其中数据挖掘中的聚类方法是用来发现数据分布的一项重要方法。本文首先阐述了Web挖掘的有关理论,然后针对Web挖掘中的分层聚类法进行了较为详细的论述,最后使用该算法并结合改进的特征权值计算方法和文本相似度的计算方法,建立了训练文本库。 相似文献
19.
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。 相似文献