首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在对服务进行领域分类的基础上,提出了一种基于概率、融合领域特性的服务聚类模型——领域服务聚类模型(domain service clustering model, DSCM),然后基于该模型提出了一种面向主题的服务聚类方法.最后通过ProgrammableWeb网站提供的真实服务集对提出的方法进行了验证.实验结果表明,该方法可以准确地对不同类型的服务文档进行聚类.与经典的潜在狄利克雷分配(latent Dirichlet allocation, LDA),K-means等方法相比,该方法在聚类纯度和F-measure指标上均具有更好的效果,从而为按需服务发现与服务组合提供更好的支持.  相似文献   

2.
文本分类中基于位置和类别信息的一种特征降维方法*   总被引:2,自引:0,他引:2  
从文本特征项所处的位置角度提出了特征项基于位置的降维方法;同时结合特征的类别分布进行了二次特征降维。这种基于位置和类别相结合的特征降维方法在最大程度减少信息损失的条件下,实现了特征维数的有效压缩。实验表明,该方法有较高的文本分类效率。  相似文献   

3.
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

4.
针对相干信号二维波达方向(Direction Of Arrival,DOA)估计运算复杂度高的问题,本文提出了一种基于前后向空间平滑的分步降维MUSIC算法。该算法首先通过前后向空间平滑技术去相干,然后通过一维空间谱搜索得到一维入射角,最后通过最小二乘法得到二维入射角,进而得到相干信号的DOA。仿真实验表明该方法可以实现对相干信号的二维DOA估计,且具有较好的DOA估计性能,同时降低了运算复杂度。  相似文献   

5.
张健伟  严建峰  刘晓升  杨璐 《计算机科学》2016,43(12):120-124, 134
目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)的框架下,使主题单词分布服从狄利克雷过程,重新推导公式,使得词汇表在模型运行之前为空,并且在处理时不断向词汇表中增加发现的新词。实验证明,这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高,而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。  相似文献   

6.
文本分类中的特征降维方法研究   总被引:1,自引:0,他引:1  
特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征词在文本集上的整体评价时,提出了一种新的全局评估函数,用最大值与次大值之差作为最终的评价函数值。实验比较了该方法与传统的特征降维方法,结果表明该方法在中文文本分类中具有较好的降维效果。  相似文献   

7.
LDA没有考虑到输入,在原始的输入空间上对每一个词进行主题标签,因保留非作用词,而影响了主题概率分布。针对这种情况提出了一种mRMR_LDA算法,预先使用mRMR特征选择算法将输入空间映射到低维空间,过滤掉非作用词,使得LDA能在更简洁和更清晰的空间上进行主题标签,得到更精确的主题分布。对20 Newsgroups语料库和复旦大学语料库进行分类,分类精度分别提高了1.53%和1.18%,实验结果表明提出的mRMR_LDA模型在文本分类中有较好的分类性能。  相似文献   

8.
LDA作为文本主题识别领域中使用最广泛的模型之一,其基于词袋模型的假设简单化地赋予词汇相同的权重,使得主题分布易向高频词倾斜,影响了识别主题的语义连贯性。本文针对该问题提出一种基于图挖掘的LDA改进算法GoW-LDA,首先基于特征词对在文本中的共现先后关系构建语义图模型,然后利用网络统计特征中节点的加权度,将文本的语义结构特点和关联性以权重修正的形式融入LDA主题建模中。实验结果显示,GoW-LDA相较于传统LDA和基于TF-IDF的LDA,能够大幅降低主题模型的混淆度,提高主题识别的互信息指数,并且有效减少模型的训练时间,为文本主题识别提供了一种新的解决思路。  相似文献   

9.
一种改进的KNN文本分类   总被引:2,自引:0,他引:2  
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。  相似文献   

10.
文本分类中一种混合型特征降维方法   总被引:5,自引:1,他引:4       下载免费PDF全文
提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异信息对特征集进行初步选择。使用一种新的基于PCA的特征抽取方法对剩余特征集进行二次抽取,在最大限度减少信息损失的前提下实现了文本特征的有效降维。对文本的分类实验结果表明,该特征降维方法具有良好的分类效果。  相似文献   

11.
针对大数据的人体行为识别时实时性差和识别率低的问题,提出了优化投影对线性近似稀疏表示分类(OP-LASRC)的监督降维算法。OP-LASRC将高维的行为数据优化投影到低维空间,与线性近似稀疏表示(LASCR)快速分类算法相结合应用大数据的人体行为识别。首先利用LASCR的残差计算规律设计OP-LASRC算法,实现监督降维;利用线性正交投影缩减高维数据的维度,投影时减小训练样本的本类重构残差及增大类间重构残差,从而保留训练样本的类别特征。然后,对降维后的行为数据,利用LASCR算法进行分类;用L2范数估算稀疏系数,选出前k个最大的稀疏系数对应的训练样本,缩减训练样本库后用L1范数最小化和残差最小化计算得到识别结果,从识别率、鲁棒性、执行时间三个方评价此方法,在KTH行为数据库上进行实验测试。实验表明:OP-LASRC监督降维后,LASRC在分类时不仅识别率高达96.5%,执行时间比同类算法短,而且保证了强鲁棒性,证明了OP-LASRC能完美匹配LASCR算法用于行为识别,这为大数据的行为识别提供了一种新的思路。  相似文献   

12.
为了降低人脸表情识别过程中特征分类的计算量,采用了一种基于特征融合降维的表情识别算法。该算法首先对表情图像进行预处理,再利用Gabor小波多尺度多方向的特性对图像进行滤波,针对同一尺度下8个不同方向的几幅特征图像,对其中特征值最大的图像编码作为新特征图像的像素值,此时特征图像的维数降为原来的1/8。最后利用统计直方图对融合后的特征图像进行分块特征统计,将统计信息作为最终的特征信息进行分类。实验结果表明,该方法在保证人脸表情识别率的前提下减少了特征图像的计算量,提高了系统效率。  相似文献   

13.
研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分类器进行了基于密度的改进,消除了由于文本分布倾斜对分类器产生的影响。实验结果表明,这种方法在文本分类的准确性方面效果较为理想。  相似文献   

14.
针对图像数据的72维HSV颜色特征,对数据集的本征维概念进行了有意义的扩展,在此基础上提出了一个新的降维机制.实验证明,该降维算法是行之有效的.  相似文献   

15.
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率。  相似文献   

16.
目前常用向量空间模型VSM表示文档,造成的高维问题制约其实际应用的效果。在研究现有的特征降维技术的基础上,对部分常用的特征提取方法做简要的分析,综合类间集中度、类内分散度、反文档频率,提出一种新的特征选择方法,通过实验验证该特征选择方法的有效性。  相似文献   

17.
文本分类属于文本挖掘的一项研究内容,存在着广阔的应用前景,近年来得到了广泛的关注和研究。对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先提出利用剔除近义词方法优化文本向量中的特征项。然后提出贡献率因子的概念,并利用其优化特征值。实验表明,比朴素贝叶斯分类方法的效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。  相似文献   

18.
文本挖掘中特征降维方法比较研究   总被引:1,自引:0,他引:1  
研究了文本挖掘中的高维特征选取问题.对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较.评价了它们的优缺点和适用范围。  相似文献   

19.
研究了文本挖掘中的高维特征选取问题,对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较,评价了它们的优缺点和适用范围。  相似文献   

20.
文本表示是自然语言处理中的基础任务,通常的文本表示模型都是基于训练数据充分的情况下进行。而在训练数据缺乏时,无法完成自然语言处理任务。提出了一种基于维基百科的文本表示方法,引入维基百科词条之间的关系,通过PageRank传播模型,能够一定程度上解决训练数据缺乏时文本表示的问题。通过实验论证了基于维基百科的文本表示能够增强分类方法的准确率、召回率和F1-测度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号