首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对现有的K-Means算法K值需要人工赋值、随机选取初始中心点、文本表示维度高且缺乏语义的缺陷,提出了一种基于概念格的K-Means算法——K-MeansBCC(K-means algorithm based on concept lattice)。将文本集经预处理转化为形式背景,在此基础上生成概念格;利用概念格中的概念表示文本,根据文本中概念的权重确定K值、选取初始中心点。最后设计了文本间的概念相似度计算公式,并由K-Means算法产生聚类结果。实验结果表明,该算法提高了聚类的效率和准确性。  相似文献   

2.
基于关联矩阵的主题概念选择算法研究   总被引:1,自引:0,他引:1  
主题概念抽取是文本自动处理中的一项重要工作。以往主题概念抽取中的加权算法较少考虑到主题概念间的相关信息,在一定程度上影响了主题概念抽取的质量。该文提出了一种基于关联矩阵的主题概念选择算法。该算法在概念语义关联矩阵的基础上,通过对矩阵中概念相关向量与文本向量距离的计算,得出候选主题概念相对于待标引文档的重要度,最后依据该重要度完成文本主题概念的选择。实验显示,该算法产生的自动标引结果比单纯按权重排序的方法更能表现文本的主题。  相似文献   

3.
为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性,而导致文本向量概念表达不够准确,提出基于概念向量的文本聚类算法TCBCV(Text Clustering Based on Concept Vector),采用HowNet的概念属性,并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念,实现关键词到概念的映射,不仅增加了文本之间的语义关系,而且降低了向量维度,将其应用于文本聚类,能够提高文本聚类效果。实验结果表明,该算法在文本聚类的准确率和召回率上都得到了较大的提高。  相似文献   

4.
为了解决传统文本过滤以联,提出了一种基于概念格的文本过滤模型.在以传统的向量空问模型对文本进行表示的基础上,将文本与文本特征之间的关系以概念格的形式加以表示.设计了基于领域本体的概念相似度的计算方法,以概念相似度对概念之间的关联进行衡量.利用了概念格中的层次关系,设计了一个基于概念格的匹配过滤算法.实验结果表明,该模型...  相似文献   

5.
针对传统文本表示模型的不足以及文本向量的“高维诅咒”问题,本文提出一种基于频繁概念集的文本聚类方法(CFC)。该方法利用HowNet 将文本中的关键词映射为概念,然后使用Apriori 算法找出概念文本集中的频繁特征项,我们称之为频繁概念,最后利用CFC 算法实现文本聚类。实验表明,较传统的基于频繁特征项的同类方法,该方法能获得更好的聚类效果。  相似文献   

6.
蒋建慧  陈玉泉 《计算机仿真》2009,26(12):122-125
随着网络资源的快速膨胀,海量的文本自动处理任务面临着巨大的挑战,而文本主题抽取就是文本自动处理领域中的一项重要研究课题.针对词语量化关系的主题概念抽取算法,首先在词聚类的基础上建立概念向量空间模型,由知网中词语相似度,加权计算出概念权重;然后利用词典中词语之间量化关系,通过对概念的相关向量和权重的向量乘积得到每个概念的主题重要度;最后依据重要度抽取出反映文本主题的概念来.实验证明,上述与传统的词频统计相比,准确率更高.  相似文献   

7.
面向不良文本信息监控的概念网技术研究   总被引:1,自引:0,他引:1  
由于网上信息的迅速增长,文本信息监控已经成为网上信息管理中的热点研究课题。文章在模糊集和语义网络的理论基础上,构建了模糊值动态约束性概念网络,介绍了该概念网络的基本构建方法,并提出了基于概念网络的文本分析算法。  相似文献   

8.
杨天平  朱征宇 《计算机应用》2012,32(12):3335-3338
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种使用了概念描述的短文本分类算法,该方法首先构建出全局的语义概念词表;然后,使用概念词表分别对预测短文本和训练短文本概念化描述,使得预测短文本在训练集中找出拥有相似概念描述的训练短文本组合成预测长文本,同时将训练集内部的短文本也进行自组合形成训练长文本;最后,再使用传统的长文本分类算法进行分类。实验证明,该方法能够有效挖掘短文本内部隐含的语义信息,充分对短文本进行语义扩展,提高了短文本分类的准确度。  相似文献   

9.
基于信息论的潜在概念获取与文本聚类   总被引:7,自引:3,他引:4  
李晓光  于戈  王大玲  鲍玉斌 《软件学报》2008,19(9):2276-2284
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法.  相似文献   

10.
提出了一种概念自动抽取算法,该算法的目的是从英文文本中抽取出由多个单词组成的概念。文中首先证明了概念的抽取过程是一个多个状态的齐次Markov链,然后给出了具体的抽取过程,即,如果多步转移概率达到所给定的阈值,则将这多个状态,即多个单词,看作是一个概念。为了对算法进行性能测试,借助网络爬虫,从网络中获取有关计算机领域的文本文档,采用本文算法进行概念抽取,结果显示该算法优于其他算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号