首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于模糊聚类和Naive Bayes方法的文本分类器   总被引:3,自引:0,他引:3       下载免费PDF全文
本文提出一种文本分类的新方法,该方法将模糊聚类与基于Naive Bayes的EM分类算法相结合,从而大大提高了EM分类算法的准确性,并解决了使用字符匹配引起的不完整性和不准确性问题。该方法首先给出每个类的一些关键词,并把这些关键词作为聚类中心进行聚类,然后使用距离聚类中心较近的文档启动一个引导过程。  相似文献   

2.
传统的文献聚类算法根据分析文献关键词进行,忽视了文献之间的引用关系,导致了主题漂移和搜索精度不高的问题。针对引文网络中的聚类问题,受到优先情节和增长定律的启发,提出了一种基于角色划分的分层次的文献软聚类算法。首先根据文献之间的引用关系构造引用矩阵,进行结构挖掘;然后根据结构挖掘的结果为每一聚类构造聚类主题,进而进行关键词分析,精化聚类。实验结果表明,该算法能够有效地提高搜索精度和效率。  相似文献   

3.
《软件》2019,(8):89-94
聚类是对文本信息进行有效组织、摘要和导航的重要手段。K-means算法是非常典型的基于距离的聚类算法,将其用于中文文献聚类,按照内容相似性把一组文献分成几个类并发现其中的隐形知识。本文通过实例,总结了基于Python语言的K-means算法用于中文文献聚类过程,通过CH指标、轮廓系数指标和SSE指标这三个评价指标选取K-means算法的初始聚类簇数,即最优k值的取值范围,然后分别按照基于关键词和基于摘要对文献进行聚类,并对聚类结果进行比较分析,从而得出基于摘要对中文文献进行聚类可以得到更好结果的结论,同一类别中的文献可以进行关键词聚类,从而进一步挖掘其中的隐形知识。  相似文献   

4.
强保华  李巍  邹显春  汪天天  吴春明 《计算机科学》2013,40(11):228-230,247
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。  相似文献   

5.
关于提高文献的检索效率,在科技文献检索过程中,传统的基于关键词匹配的检索方法缺乏对知识的理解和处理,只能检索出包含关键词的文献,而不能检索出与关键词语义相似的文献,因而检索结果在查全率和查准率都无法满足检索者的要求.将模糊粗糙集理论引入信息检索当中,对信息检索模型的缺陷进行了改进.首先用传统的互信息函数计算标引词之间的语义关联权重,构建出模糊近似空间;然后用TF - IDF方法获得文档的模糊向量表示,在计算标引词重要度权重时,不但考虑了标引词出现的频度,还考虑位置因素,查询的模糊向量表示完全由用户的兴趣确定;最后用模糊近似空间对关键词进行概念扩展,挖掘出相似概念类,计算文档和查询模糊表示的上、下近似集,文档和查询的匹配不再是关键词匹配,而是利用布尔逻辑的合取、析取公式对上、下近似集进行模糊匹配,并返回按相似度值排序的检索结果.仿真测试表明,方法能提高科技文档检索的性能,能对科技文献进行概念意义上的检索.  相似文献   

6.
由于传统信息检索方法检索时间长,检索误差率高,研究基于Spark框架的图书馆文献信息检索方法。首先,预处理文献信息数据,结合信息相似度,提取特征数据集合中的敏感数据获得属性特征。其次,基于Spark框架批处理数据,训练待测样本进行目标跟踪,寻找最优解集。对信息的特征进行查询,提取其中的关键词并在已建立的文本索引结构上进行检索和融合,运用K-Means聚类方法对融合结果进行重新排序。采用布尔查询机制构造文献检索模型,将不同信息数据多重倒排文献进行索引从而完成信息检索。实验结果表明,运用该方法检索时间最短,误差率最低,完成图书馆文献信息检索方法的优化。  相似文献   

7.
本文研究了p2p网络中基于内容的节点聚类。基于文件名关键词精确匹配的查询没有考虑文本语义及内容相似性。如果能够根据节点发布内容的相似性,建立节点聚类,信息查询在类内进行,必将提高查询效率。本文提出了一种基于增量学习的节点聚类方法,通过兴趣爬虫代理计算节点得分,据此判断一个节点是否可以加入节点簇。实验表明,节点簇的建立可以有效地提高 p2p 网络的查询效率。  相似文献   

8.
智能答疑系统中基于聚类的问题分类研究   总被引:3,自引:0,他引:3  
研究了智能答疑系统中的问题分类。针对基于章节目录的分类方式过于依赖特定教材的不足,提出了基于关键词聚类的问题模糊分类方法。此方法基于关键词的语义,采用NERF算法对关键词进行聚类。并利用聚类有效性的方法来弥补此算法过于依赖初始值的不足。最后通过实例进行分析,说明此分类方法的可行性和对基于章节目录的分类方式不足的弥补。  相似文献   

9.
在此提出一种基于模糊聚类的目录查询新方法,该方法基于模糊C均值聚类算法,并结合了编辑距离算法。针对传统的模糊C均值聚类算法的聚类结果不稳定性问题,引入了高权样本点集;并且在处理聚类过程中的边界值归属不足问题,引入编辑距离算法。  相似文献   

10.
研究了智能答疑系统中的问题分类.针对基于章节目录的分类方式过于依赖特定教材的不足,提出了基于关键词聚类的问题模糊分类方法.此方法基于关键词的语义,采用NERF算法对关键词进行聚类.并利用聚类有效性的方法来弥补此算法过于依赖初始值的不足.最后通过实例进行分析,说明此分类方法的可行性和对基于章节目录的分类方式不足的弥补.  相似文献   

11.
基于关联规则的文本聚类算法的研究*   总被引:1,自引:0,他引:1  
K-均值聚类算法是目前一种较好的文本分类算法,算法中的相似度计算通常基于词频统计,小文档或简单句子由于词频过小,使用该算法聚类效果较差。为此,提出了一种基于词语关联度的相似度计算算法,对简单文档集执行关联规则算法,得出基于关键词的关联规则,并根据这些规则求得词语关联度矩阵,然后由权重对文本进行文本特征向量表示,最后借助于关联度矩阵和文本特征向量,并按一定算法计算出句子相似度。实验证明该算法可得到较好的聚类结果,且其不仅利用词频统计的方法而且考虑了词语间的关系。  相似文献   

12.
模糊C-均值算法在直觉模糊数聚类中的应用   总被引:5,自引:0,他引:5       下载免费PDF全文
提出了直觉模糊数的非监督模糊C-均值聚类算法。该算法首先定义了直觉模糊数之间的距离,其次构造了直觉模糊数聚类问题的目标函数,最后得到了直觉模糊数聚类的模糊C-均值聚类算法,聚类中心初始化方法,以及相关的聚类有效性函数。实验结果表明,该算法是有效的。  相似文献   

13.
为解决高维和高不确定级别的数据流聚类问题,提出了一种针对不确定数据流的聚类算法HFMicro。引入粗糙模糊集理论,定义了一种新的不确定数据流模型,并利用隶属程度的上、下近似来描述微簇。根据粗糙模糊集间的相似程度来选择最合适的微簇。使用动态衰减窗口模型提高算法的效率和聚类效果。由于采用了离线聚类模式,使得算法具有较好的实时性。实验结果表明,该算法能够很好地处理高维和高不确定级别的数据流,同时兼容存在级不确定性和属性级不确定性,与现有算法相比效果更好。  相似文献   

14.
为了发现企业技术实力和行业趋势,减少不必要的研发成本、做出正确决策,给出了基本专利同被引矩阵分析方法.利用改进的粗糙集K-Means模糊聚类方法实现对不同主题专利聚类,解决了重复计算中心向量带来的不准确性;进一步利用关联规则挖掘算法发现强关联规则,以强关联规则结论为该类别核心专利,提高针对性地选择专利.实例表明了该方法的有效性,为专利引文分析提供了可行的解决途径.  相似文献   

15.
在实际的信息传递中人们需要更加准确可靠的信息,而且被传递概念是模糊集合,根据这些信息传递情况,利用粗模糊集理论提出了一种模糊信息粗传递模型,由该模型得到提高模糊信息传递精确度方法。最后给出了该模型的应用。模糊粗传递是粗模糊集的一种新的应用。  相似文献   

16.
昌燕  张仕斌 《计算机应用》2012,32(4):1070-1073
针对已有基于直觉模糊集的聚类方法的局限性,提出了一种基于加权直觉模糊集合的聚类模型——WIFSCM。在该模型中,提出了特定特征空间下的等价样本和加权直觉模糊集合的概念;并推导出基于等价样本和加权直觉模糊集合的直觉模糊聚类算法的目标函数,利用该目标函数推导出直觉模糊聚类中心迭代算法和隶属度矩阵迭代算法;定义了基于加权直觉模糊集合的密度函数,确定了初始聚类中心,减少了迭代次数。通过灰度图像分割实验,证明了该模型的有效性,同时与普通直觉模糊集FCM聚类算法(IFCM)相比,聚类速度提高近百倍。  相似文献   

17.
路艳丽  雷英杰  周炜 《计算机应用》2008,28(8):1997-1999
将直觉模糊包含度引入粗糙集与直觉模糊集的融合建模。首先,介绍直觉模糊集在特殊格L上的定义;其次,将模糊包含度拓展到直觉模糊环境下,提出取值于特殊格L的直觉模糊包含度定义和计算公式;在此基础上,分别利用直觉模糊包含度的隶属度与非隶属度定义了上下近似算子,建立了直觉模糊相似关系下的直觉模糊粗糙集模型,并对近似算子的重要性质进行了证明。  相似文献   

18.
图像分割中的模糊聚类方法   总被引:8,自引:3,他引:5       下载免费PDF全文
模糊聚类算法是近年来图像分割技术领域的研究热点之一。在对模糊C均值聚类算法分析的基础上,结合目前在图像分割中的应用研究,对模糊C均值聚类算法的测度方式进行了比较分析,从单分辨率、多分辨率以及与其他算法结合3个方面,评述改进的模糊C均值聚类算法优缺点。最后,讨论模糊C均值聚类算法目前存在的问题及未来发展方向。  相似文献   

19.
Clustering is a crucial method for deciphering data structure and producing new information. Due to its significance in revealing fundamental connections between the human brain and events, it is essential to utilize clustering for cognitive research. Dealing with noisy data caused by inaccurate synthesis from several sources or misleading data production processes is one of the most intriguing clustering difficulties. Noisy data can lead to incorrect object recognition and inference. This research aims to innovate a novel clustering approach, named Picture-Neutrosophic Trusted Safe Semi-Supervised Fuzzy Clustering (PNTS3FCM), to solve the clustering problem with noisy data using neutral and refusal degrees in the definition of Picture Fuzzy Set (PFS) and Neutrosophic Set (NS). Our contribution is to propose a new optimization model with four essential components: clustering, outlier removal, safe semi-supervised fuzzy clustering and partitioning with labeled and unlabeled data. The effectiveness and flexibility of the proposed technique are estimated and compared with the state-of-art methods, standard Picture fuzzy clustering (FC-PFS) and Confidence-weighted safe semi-supervised clustering (CS3FCM) on benchmark UCI datasets. The experimental results show that our method is better at least 10/15 datasets than the compared methods in terms of clustering quality and computational time.  相似文献   

20.
文献[1]从概念层面上提出并区分模糊概念中存在的三种不同否定关系,即矛盾否定关系、对立否定关系和中介否定关系,由此定义了能够刻画这些不同否定的一种新的模糊集FScom。研究模糊集FScom的模糊度与贴近度,提出模糊集FScom的模糊度、距离贴近度以及格贴近度计算公式,并讨论了它们的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号