首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
短文本的研究一直是自然语言处理领域的热门话题,由于短文本特征稀疏、用语口语化严重的特点,它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题.针对对上述问题的研究,本文提出了一种改进特征权重的短文本聚类算法.首先,定义多因子权重规则,基于词性和符号情感分析构造综合评估函数,结合词项和文本内容相关度进行特征词选择;接着,使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;最后,利用RWMD算法计算短文本之间的相似度并将其应用K-Means算法中进行聚类.最后在3个测试集上的聚类效果表明,该算法有效提高了短文本聚类的准确率.  相似文献   

2.
聚类相关度大的个人微博有助于快速了解博主的专业兴趣和经历,目前的短文本聚类方法缺乏对于语义和句子相关度的充分考虑,提出了一种基于知网的个人微博语义相关度的聚类方法。其要点如下:(1)利用Skip-gram训练大量微博文本生成词汇向量;(2)根据词汇义原进行句内词汇消除歧义;(3)分别计算个人微博之间词汇和句子的相似度并将其综合得到博文相关度;(4)根据博文相关度进行个人微博的聚类。实验表明,相较于层次聚类法、密度聚类法,本文算法的准确度有明显提高。  相似文献   

3.
为利用开放分类进行百科条目的分类和检索, 提出了基于词共现和语义分析的开放分类聚类算法以及开放分类层次结构树构建方法; 为了进一步提高层次结构树的聚合度, 提出了基于相似度和相关度计算的层次结构树聚类算法。以互动百科开放分类为实验数据集, 实验结果表明, 所构建的开放分类层次结构树的准确率较高, 利用开放分类层次结构树有效提高了百科条目检索的效率。  相似文献   

4.
贾真  尹红风  李天瑞 《计算机应用研究》2013,(6):1660-1663,1674
为利用开放分类进行百科条目的分类和检索,提出了基于词共现和语义分析的开放分类聚类算法以及开放分类层次结构树构建方法;为了进一步提高层次结构树的聚合度,提出了基于相似度和相关度计算的层次结构树聚类算法。以互动百科开放分类为实验数据集,实验结果表明,所构建的开放分类层次结构树的准确率较高,利用开放分类层次结构树有效提高了百科条目检索的效率。  相似文献   

5.
张群  王红军  王伦文 《计算机科学》2016,43(Z11):443-446, 450
短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上下文语义的短文本聚类算法。首先借鉴社会网络分析领域的中心性和权威性思想设计了一种结合上下文语义的特征词权重计算方法,在此基础上构建词条-文本矩阵;然后对该矩阵进行奇异值分解,进一步将原始特征词空间映射到低维的潜在语义空间;最后通过改进的K-means聚类算法在低维潜在语义空间完成短文本聚类。实验结果表明,与传统的基于词频及逆向文档频权重的文本聚类算法相比,该算法能有效改善短文本特征不足及高维稀疏性,提高了短文的本聚类效果。  相似文献   

6.
语义相似度和相关度计算广泛应用于自然语言处理中,已有大量语义相似度和相关度算法被提出。分析总结了树和图结构中影响概念相似度或相关度的因素,综述了基于本体的英文语义相似度和相关度计算方法,明确了语义相似度和相关度的区别与联系,系统地对算法进行了分类,最后对每类算法进行了详细的比较。  相似文献   

7.
结合语义的特征权重计算方法研究   总被引:1,自引:1,他引:1  
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节--文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果.传统的VSM特征权重计算方法-TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法.实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率.  相似文献   

8.
为了使传统的关联规则挖掘算法在结合到具体领域时具有更强的适应性,提出了DS-Apriori算法。该算法建立在语义本体的基础上,根据项集内部的语义相关度动态的确定该项集的最小支持度,并采用了项集语义相关度的增量计算方法。实验结果表明,DS-Apriori算法在很大程度上提高了关联规则挖掘算法的效率和效果。  相似文献   

9.
针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过ICA分解获得类别信息。利用LSI的词共现分析和文本降噪能力提高聚类准确率。实验表明聚类平均准确率达到90%以上。  相似文献   

10.
《计算机工程》2018,(2):197-202
为提高短文本语义相关度的计算准确率,将维基百科作为外部语义知识库,利用维基百科的结构特征,如维基百科的分类体系结构、摘要中的链接结构、正文中的链接结构以及重定向消歧页等,提出类别相关度与链接相关度相结合的词语相关度计算方法。在此基础上,提出基于词形结构、词序结构以及主题词权重的句子相关度计算方法。实验结果表明,在词语相关度计算方面,该方法的Spearman参数比文本相关度计算方法提高2.8%,句子相关度准确率达到73.3%。  相似文献   

11.
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。  相似文献   

12.
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.  相似文献   

13.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

14.
提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。  相似文献   

15.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

16.
基于特征映射的微博用户标签兴趣聚类方法   总被引:1,自引:1,他引:0  
针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后,考虑标签之间的语义相关性,利用特征映射的思想将用户标签根 据其与特征维标签之间的语义相似度映射到每个特征维下,计算每个特征维所对应的特征值;最后,利用模糊聚类得到了不同阈值下的用户兴趣聚类结果。实验结果表明,本文提出的基于特征映射的微博用户标签兴趣聚类方法有效地改善了用户兴趣聚类效果。  相似文献   

17.
根据各分布信息源信息单元实体类的语义相似度,对于信息单元实体类进行聚类,是半自动地进行本体映射、构建分布异构信息资源全局视图的重要步骤。本文面向分布信息资源统一信息视图构建需求,利用基于本体的元数据模型及语义相似度,在其基础上定义了语义聚类特征,基于语义聚类特征设计了一种基于语义特征树的混合层次聚类算法SCFBHCA。从理论和实验两个角度对SCFBHCA算法进行了分析,对比HCA和HCP,该算法具有增量式和扩展性且效率更高。  相似文献   

18.
姜大庆  周勇  夏士雄 《计算机应用》2012,32(6):1522-1525
为了从多源复杂的网络性能数据中挖掘有用模式以提高网络服务质量,研究了基于本体的网络性能监测数据聚类分析方法。阐述了网络性能监测数据的语义描述方法,提出基于语义和属性数据相融合的网络性能数据相似性度量模型,并给出基于改进k-means的NJW谱聚类算法。通过在UCI数据集和校园网性能监测数据集上的实验表明, 本文所提方法较相关比对方法具有更高的聚类准确性和区分度。  相似文献   

19.
融合LDA和多类SVM的图像语义映射研究   总被引:2,自引:2,他引:0       下载免费PDF全文
建立图像低层特征到高层语义的映射是图像语义检索的关键问题之一,SVM是其中行之有效的方法。为了便于规则生成,将模糊C均值聚类SVM多类分类方法应用于图像语义映射。但由于异类图像特征常常混杂,最终形成的二叉树分支一般很多,映射准确率下降明显。为此,将线性判别分析法引入二叉树建树过程中,通过聚类之前先对特征优化处理来改进算法性能。实验结果表明该方法建立起了更便于理解的分类树结构且LDA的引入使得映射准确率有所提高,满足了图像语义映射的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号