首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
刘磊  曹存根 《计算机工程》2008,34(14):12-13
上下位关系的自动验证是知识获取中的一个关键问题。提出一种基于混合特征的迭代上下位关系验证方法,从语义、语境、空间结构角度,给出一组上下位关系特征,根据抽样数据分析,将所有特征转化为用于验证的产生式规则,利用这些规则对基于模式获取的上下位关系进行循环迭代验证。实验结果说明了该方法的有效性。  相似文献   

2.
3.
在传统的协同过滤推荐算法中, 相似度计算是算法中的核心, 然而之前的计算方式过于依赖用户的评分, 没有考虑到用户本身的属性以及信任度, 并且没有对恶意用户进行区分, 为解决上诉问题, 本文将一种改进的新型信任关系度量方式融入到相似度计算中, 这种新型的方法不仅考虑了恶意用户的影响, 并且有效地结合用户本身的属性. 另外, 文章就热点问题对相似度计算也进行了改进. 算法最终利用初始用户聚类不断迭代得到相邻用户, 有效的消除了冷启动和数据稀疏的问题. 实验部分, 通过与其它几种推荐算法的比较可以证明, 提出的算法能够有效提升推荐准确度.  相似文献   

4.
文本聚类技术的有效性验证   总被引:3,自引:0,他引:3       下载免费PDF全文
讨论了利用分类测试集进行聚类量化评价的标准。在此基础上选择k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。实验表明,STC聚类算法在处理文本时充分考虑了文本的特性,其聚类效果较好;基于Ant的聚类算法在聚类的划分时效果受参数输入的影响较大,其聚类结果与STC相比并不具有优势;在Ant聚类算法中引入文本特性后,可以提高文本聚类的效果。  相似文献   

5.
针对上下位关系在分类层级结构建立阶段遇到的多义性问题,给出一种概念空间中上下位关系意义识别的方法.单个概念的意义识别问题被转换为概念空间中上下位关系的意义识别.首先利用并列语境解决语境稀疏问题,获取上下位关系意义的语境.然后利用<同义词词林>对每个语境进行词义修正,以三种特征计算特征词权重,构建"关系一词'的高维向量空间,然后通过潜在语义分析降维,获取上下位关系意义的潜在语义,最后组平均聚类后得到关系的意义划分.在实验中,给出了聚类阈值自动调整函数,分析了词林和潜在语义分析的作用,实验结果证实了方法的有效性.  相似文献   

6.
对密度分布不均匀的数据采用近邻传播的谱聚类,存在误将不同类的样本传入同一高相似度的子集中的情况,因而得不到真实的相似度矩阵和准确的聚类结果.针对这一问题,提出一种基于局部密度估计和近邻关系传播的谱聚类(LDENP-SC)算法.该算法首先对样本进行密度估计并升维,然后对新数据采用传播算法更新相似度矩阵并谱聚类.在计算密度时提出一种简易的局部密度计算方法,该方法既能反应样本的密度又能减少运算时间;在更新相似度矩阵时基于传播算法提出一种更新子集间样本相似性的方法,使更新后样本的相似度更接近实际.实验结果表明,LDENP-SC算法能够得出取得理想的相似度矩阵和准确的聚类结果,具有较好的泛化能力,且对一定范围内的参数σ表现出鲁棒性.  相似文献   

7.
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。  相似文献   

8.
李瑞  邱玉辉 《计算机科学》2005,32(6):111-113
蚂蚁等群居式昆虫具有分布式、自组织、基于信息素间接通信(pheromone)等群体协作能力,模拟其智能行为的蚁群算法解决了许多复杂的问题并在并在数据聚类分析领域取得成效。本文首先介绍了基于蚂蚁的聚类算法的基本理论,讨论了参数σ对邻域平均相似度的影响并做了实验分析比较,然后提出利用离散点对算法进行改进,通过对离散点的检测算法能够对蚂蚁行为进行控制,使蚂蚁快速地决定下一个负载节点,从而有效地缩短聚类分折的执行时间。实验表明改进后的蚂蚁聚类算法具有较好的聚类特性,其收敛性也得到了有效改善。  相似文献   

9.
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。  相似文献   

10.
针对短文本长度短、描述信号弱的特点,提出了一种利用上下位关系的中文短文本分类框架。该框架首先利用“知网”确定训练文本中概念对的上下位关系,进而确定词语对的上下位关系,再将其用于扩展测试文本的特征向量,从而实现对测试文本的分类。实验表明:利用上下位关系能够改善短文本的分类性能。  相似文献   

11.
基于HowNet和PMI的词语情感极性计算   总被引:1,自引:0,他引:1       下载免费PDF全文
王振宇  吴泽衡  胡方涛 《计算机工程》2012,38(15):187-189,193
基于语料库的点互信息(PMI)计算方法依赖于语料库的完善性,基于HowNet的计算方法则依赖于知网相似度计算的准确性。为克服2种方法的局限性,提出一种HowNet和PMI相融合的词语极性计算方法,利用知网进行同义词扩展,降低情感词在语料库中出现频率低所带来的问题。实验结果表明,该方法的微平均和宏平均性能比传统方法提升约5%。  相似文献   

12.
传统动态时间规整算法(Dynamic Time Warping,DTW)及其变种算法被广泛应用于多维时间序列的相似性分析,但它们通常只关注单个时间点的信息而忽略了上下文信息,从而很可能匹配两个形状完全不同的点。因此提出一种结合形状特征及其上下文的多维DTW算法(Multi-Dimensional Contextual Dynamic Time Warping,MDC-DTW)。该算法首先计算多维时间序列的一阶梯度,然后对其进行采样处理,并以多维梯度矩阵表示当前时间点的形状信息及其上下文信息,最后利用DTW求解多维时间序列间的最短匹配路径。为检测算法设计的合理性,对算法进行了定性分析和定量分析,实验结果表明MDC-DTW算法设计是合理的;为检测MDC-DTW的性能,选用5个多维时间序列数据集,并与4个优异的多维DTW算法进行对比实验,实验结果表明MDC-DTW具有较高的准确率和运行效率。  相似文献   

13.
基于维基百科和模式聚类的实体关系抽取方法   总被引:1,自引:0,他引:1  
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度。实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能。  相似文献   

14.
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。  相似文献   

15.
刘胜男  宁纪锋 《计算机应用》2016,36(8):2296-2300
点互信息(PMI)边界检测算法能准确检测图像中的边界,但算法效率受制于采样点的提取。针对采样过程中存在随机性和信息冗余的问题,提出一种利用超像素分割提供的中层结构信息来指导点对选取的方法。首先使用超像素算法对图像进行初始分割,将图像划分成大小形状近似的像素块;然后选取落在相邻超像素中的像素点对,从而使样本点的选取更有目的性,在采样点数目较少时,保证样本点仍能有效完整地获取图像信息。实验通过与原始的PMI边界检测算法在伯克利分割数据库(BSDS)上进行比对验证得出,基于超像素的PMI边界检测算法在采样点对为3500时,平均精准度(AP)达到0.7917,而原始算法则需要6000个同样环境下的采样点对。基于超像素的PMI边界检测算法在保证了检测精度的同时减少了所需的采样点数目,从而能有效提高算法的实时性。  相似文献   

16.
针对传统谱聚类算法中亲合矩阵构造不准确和聚类结果不稳定的问题,提出一种基于邻里关系传播与模式合并的谱聚类算法。根据邻里关系传播原则更新子集内样本的相似度,设计局部最大相似值更新方法更新子集间样本的相似度,使用模式合并技术对子集个数较多的集合加以合并得出粗类,再对粗类间样本相似度进行二次更新,构造出亲合矩阵并将其用于谱聚类运算。实验结果表明,二次更新后,同类中样本的相似度被相对性放大,而不同类中样本的相似度则相对性缩小。与近邻传播的谱聚类算法相比,使用该算法能够得到更准确、稳定的聚类结果。  相似文献   

17.
朱接文  肖军 《计算机应用》2014,34(9):2608-2611
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。  相似文献   

18.
郑建炜  李卓蓉  王万良  陈婉君 《软件学报》2019,30(12):3846-3861
在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(joint Laplacian regularization and adaptive feature learning,简称LRAFL)的数据聚类算法.基于自适应近邻进行图拉普拉斯学习,并将低维嵌入、特征选择和子空间聚类纳入同一框架,替换传统谱聚类算法先图Laplacian构建、后谱分析求解的两级操作.通过添加非负加和约束以及低秩约束,LRAFL能获得稀疏的特征权值向量并具有块对角结构的Laplacian矩阵.此外,提出一种有效的求解方法用于模型参数优化,并对算法的收敛性、复杂度以及平衡参数设定进行了理论分析.在合成数据和多个公开数据集上的实验结果表明,LRAFL在效果效率及实现便捷性等指标上均优于现有的其他数据聚类算法.  相似文献   

19.
基于WFC和MI的主题句提取方法   总被引:2,自引:0,他引:2       下载免费PDF全文
薛扣英  原盛  张心严 《计算机工程》2009,35(20):184-186
提出一种基于加权模糊聚类(WFC)和互信息(MI)的主题句提取方法,使主题句尽可能全面覆盖全文主题的同时,缩减自身的冗余,以提高摘要效率,采用加权模糊聚类的方法对文本句子进行分类,对在同一类中的句子使用比较互信息的方法进行排名处理,从而获得高质量的摘要。实验结果表明,与传统聚类方法比较,该方法的正确率提高约15%,可以达到约70%的精确度,并在阅读摘要时能够基本正确地获取文本信息。  相似文献   

20.
一种实用高效的聚类算法   总被引:20,自引:0,他引:20       下载免费PDF全文
王建会  申展  胡运发 《软件学报》2004,15(5):697-705
在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号