首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 19 毫秒
1.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。  相似文献   

2.
基于分级神经网络的Web文档模糊聚类技术   总被引:1,自引:1,他引:1  
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的web文档较完全和准确地聚成一类.  相似文献   

3.
雷景生  伍庆清  王平 《计算机工程》2005,31(1):12-13,16
针对Web文档的特点,提出了一种多层向量空间模型,用来确定Web文档特征词的权重,然后给出了一种基于混合神经网络的文档聚类算法。实验结果表明,所提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类。  相似文献   

4.
一种基于群体智能的Web文档聚类算法   总被引:31,自引:0,他引:31  
将群体智能聚类模型运用于文档聚类,提出了一种基于群体智能的Web文档聚类算法,首先运用向量空间模型表示Web文档信息,采用常规方法如消除无用词和特征词条约简法则得到文本特征集,然后将文档的向量随机分布到一个平面上,运用基于群体智能的聚类方法进行文档聚类,最后从平面上采用递归算法收集聚类结果,为了改善算法的实用性,将原算法与k均值算法结合提出一种混合聚类算法,通过实验比较,结果表明基于群体智能的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全而准确地聚成一类。  相似文献   

5.
一种基于改进粒子群优化的XML结构聚类方法   总被引:7,自引:0,他引:7  
在对XML文档进行数据挖掘时,很多结构语义信息没有被充分考虑进来.为了更好地进行大规模文档集的挖掘,本文首先给出一个新的基于语义和支持度的XML结构模型对每个文档建模.然后根据该模型,提出基于改进粒子群优化的结构聚类方法.实验中,为了增加算法的实用性,将粒子群优化的思想与传统的K均值算法相结合,其优点是能够跳出局部极值.实验结果表明提出的方法在聚类准确性和收敛程度方面都优于传统基于划分的聚类算法.  相似文献   

6.
孙桂煌 《现代计算机》2011,(16):9-11,16
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息,也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n-gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。摘要:  相似文献   

7.
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。  相似文献   

8.
PCCS部分聚类分类:一种快速的Web文档聚类方法   总被引:16,自引:1,他引:15  
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。  相似文献   

9.
黄媛  李兵  何鹏  熊伟 《计算机科学》2013,40(2):167-171
聚类Web服务能大大提高W c6服务搜索引擎检索相关服务的能力。ProgrammablcWeb. com是一个很流行 的在线社会Mashup网站。作为基于Web的应用程序,Mashup本质上是开发者提供的Web服务。结合Mashup服 务的描述文档和相应标签提出一种新颖的Mashup服务聚类的方法,此外还提出一种标签推荐的方法来改进服务聚 类的性能。实验结果表明,基于标签推荐的服务聚类方法的聚类精度比其他两种实验方法要高,说明提出的标签推荐 策略有效扩充了标签数较少的Mashup服务,从而带来更多相关标签信息,因而聚类效果更好。  相似文献   

10.
基于文档标引图模型的文本相似度策略   总被引:2,自引:1,他引:1       下载免费PDF全文
文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。  相似文献   

11.
项目文档主题表征的好坏直接影响后续评审专家的推荐效果.为有效利用项目文档片段之间的关联关系进行项目主题分析,提出一种基于半监督图聚类的项目主题模型构建方法.该方法首先分析项目文档的结构特点,提取项目名称、项目关键字等能表征主题的结构信息,结合专家证据文档、专家主题关系网等能表征专家主题的外部资源,定义及提取项目文档片段之间的关联关系特征;然后,利用不同类型的关联关系计算项目文档片段之间的相关性,构建项目文档片段间的无向图模型;最后,利用已标记关联关系特征作为聚类的监督信息,采用半监督图聚类算法对项目文档片段进行聚类,从而实现项目主题的提取.项目主题提取对比实验结果验证了所提方法的有效性,项目文档结构化特征、专家证据文档以及专家主题关系网对项目主题模型的构建具有一定的指导作用.  相似文献   

12.
在基于概率模型的聚类中,簇模型对数据分布的拟合性直接影响着聚类质量。基于内容的文本数据分布的复杂性导致单一因素的簇模型无法准确拟合文本数据的分布特征。该文认为文本基于内容的分布特性主要受主题内容和通用写作方式影响,给出了一种基于主题模型和通用模型的混合簇模型和基于该簇模型的文本聚类方法。实验表明该聚类方法较单一因素的簇模型具有更好的拟合性,聚类质量 更好。  相似文献   

13.
提出一种基于领域服务本体的语义标注方法.并结合电力系统领域本体对该方法进行实例说明,该方法通过分析文档(或者网页)的关键信息,使用基于OWL-S本体的语义描述方法建立关键信息与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的Web服务信息显式地表现出来,这样多个文档(或者网页)之间就具有语义关联关系.为服务的语义解析及智能监控提供基础.  相似文献   

14.
一种基于词共现的文档聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
常鹏  冯楠  马辉 《计算机工程》2012,38(2):213-214
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。  相似文献   

15.
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的.提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法.采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示.然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类.针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性.实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高.  相似文献   

16.
基于用户与服务协同聚类的Web服务发现研究*   总被引:4,自引:2,他引:2  
如何从大规模服务集合中快速而准确地发现目标服务是应用Web服务技术的关键。针对现有研究方法主要集中在基于语义的Web服务发现上,其实施难度大且适用性不强,提出一种基于服务日志挖掘的服务发现方法。该方法通过对用户与服务进行协同聚类,缩小查询空间,从而提高发现效率。仿真实验表明,其在召回率与准确率上比基于关键字的匹配算法都有不同程度的改善,且该方法能极大地满足服务执行时动态绑定的特性。  相似文献   

17.
准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K2Means 聚类算法”来对文档集合进行聚类,通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek2Mercer 模型方法相比较,主题语言模型检索系统的平均精度提高大约16117 % ,召回率提高大约 9164 %。  相似文献   

18.
提出了将知网(HowNet),领域词典同聚类挖掘模型相结合的方法,解决传统的聚类挖掘缺乏处理深层语义信息的问题.该方法能够很方便地得到知识支持,更好地将语义相关的文本聚集到一起,增强了文本特征表示能力,从而实现文本聚类在某领域上的基于语义的挖掘.  相似文献   

19.
一种快速有效的Web文档聚类方法   总被引:2,自引:0,他引:2  
以矢量空间模型VSM为Web文本的表示方法,提出了一种基于关联规则的Web文档聚类方法。实验证明:该方法能在保证文档聚类高精度的同时,依然保持高效率,其聚类性能明显优于传统Web文档聚类算法。  相似文献   

20.
计算服务网格中基于服务聚类的元任务调度算法   总被引:1,自引:0,他引:1  
在尊重网格资源本地调度策略前提下,提出一种基于云模型的动态服务能力评估方法;根据动态性能评估尺度对服务进行聚类,提出了一种基于PSO的自适应的服务动态聚类方法,将提供相同或相似QoS的服务划分到同一个服务簇中,从而缩小了任务调度的问题规模;基于服务动态聚类提出了一种元任务调度算法,理论分析该算法降低了不聚类调度算法的复杂度.实验结果表明本文提出的调度算法在时间复杂度与用户QoS保障方面优于以前提出的调度算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号