共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在对服务进行领域分类的基础上,提出了一种基于概率、融合领域特性的服务聚类模型——领域服务聚类模型(domain service clustering model, DSCM),然后基于该模型提出了一种面向主题的服务聚类方法.最后通过ProgrammableWeb网站提供的真实服务集对提出的方法进行了验证.实验结果表明,该方法可以准确地对不同类型的服务文档进行聚类.与经典的潜在狄利克雷分配(latent Dirichlet allocation, LDA),K-means等方法相比,该方法在聚类纯度和F-measure指标上均具有更好的效果,从而为按需服务发现与服务组合提供更好的支持. 相似文献
2.
3.
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好. 相似文献
4.
5.
目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)的框架下,使主题单词分布服从狄利克雷过程,重新推导公式,使得词汇表在模型运行之前为空,并且在处理时不断向词汇表中增加发现的新词。实验证明,这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高,而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。 相似文献
6.
7.
LDA没有考虑到输入,在原始的输入空间上对每一个词进行主题标签,因保留非作用词,而影响了主题概率分布。针对这种情况提出了一种mRMR_LDA算法,预先使用mRMR特征选择算法将输入空间映射到低维空间,过滤掉非作用词,使得LDA能在更简洁和更清晰的空间上进行主题标签,得到更精确的主题分布。对20 Newsgroups语料库和复旦大学语料库进行分类,分类精度分别提高了1.53%和1.18%,实验结果表明提出的mRMR_LDA模型在文本分类中有较好的分类性能。 相似文献
8.
LDA作为文本主题识别领域中使用最广泛的模型之一,其基于词袋模型的假设简单化地赋予词汇相同的权重,使得主题分布易向高频词倾斜,影响了识别主题的语义连贯性。本文针对该问题提出一种基于图挖掘的LDA改进算法GoW-LDA,首先基于特征词对在文本中的共现先后关系构建语义图模型,然后利用网络统计特征中节点的加权度,将文本的语义结构特点和关联性以权重修正的形式融入LDA主题建模中。实验结果显示,GoW-LDA相较于传统LDA和基于TF-IDF的LDA,能够大幅降低主题模型的混淆度,提高主题识别的互信息指数,并且有效减少模型的训练时间,为文本主题识别提供了一种新的解决思路。 相似文献
9.
一种改进的KNN文本分类 总被引:2,自引:0,他引:2
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。 相似文献
10.
11.
针对大数据的人体行为识别时实时性差和识别率低的问题,提出了优化投影对线性近似稀疏表示分类(OP-LASRC)的监督降维算法。OP-LASRC将高维的行为数据优化投影到低维空间,与线性近似稀疏表示(LASCR)快速分类算法相结合应用大数据的人体行为识别。首先利用LASCR的残差计算规律设计OP-LASRC算法,实现监督降维;利用线性正交投影缩减高维数据的维度,投影时减小训练样本的本类重构残差及增大类间重构残差,从而保留训练样本的类别特征。然后,对降维后的行为数据,利用LASCR算法进行分类;用L2范数估算稀疏系数,选出前k个最大的稀疏系数对应的训练样本,缩减训练样本库后用L1范数最小化和残差最小化计算得到识别结果,从识别率、鲁棒性、执行时间三个方评价此方法,在KTH行为数据库上进行实验测试。实验表明:OP-LASRC监督降维后,LASRC在分类时不仅识别率高达96.5%,执行时间比同类算法短,而且保证了强鲁棒性,证明了OP-LASRC能完美匹配LASCR算法用于行为识别,这为大数据的行为识别提供了一种新的思路。 相似文献
12.
为了降低人脸表情识别过程中特征分类的计算量,采用了一种基于特征融合降维的表情识别算法。该算法首先对表情图像进行预处理,再利用Gabor小波多尺度多方向的特性对图像进行滤波,针对同一尺度下8个不同方向的几幅特征图像,对其中特征值最大的图像编码作为新特征图像的像素值,此时特征图像的维数降为原来的1/8。最后利用统计直方图对融合后的特征图像进行分块特征统计,将统计信息作为最终的特征信息进行分类。实验结果表明,该方法在保证人脸表情识别率的前提下减少了特征图像的计算量,提高了系统效率。 相似文献
13.
14.
15.
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率。 相似文献
16.
17.
18.
文本挖掘中特征降维方法比较研究 总被引:1,自引:0,他引:1
研究了文本挖掘中的高维特征选取问题.对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较.评价了它们的优缺点和适用范围。 相似文献
19.
研究了文本挖掘中的高维特征选取问题,对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较,评价了它们的优缺点和适用范围。 相似文献
20.
文本表示是自然语言处理中的基础任务,通常的文本表示模型都是基于训练数据充分的情况下进行。而在训练数据缺乏时,无法完成自然语言处理任务。提出了一种基于维基百科的文本表示方法,引入维基百科词条之间的关系,通过PageRank传播模型,能够一定程度上解决训练数据缺乏时文本表示的问题。通过实验论证了基于维基百科的文本表示能够增强分类方法的准确率、召回率和F1-测度。 相似文献