排序方式: 共有63条查询结果,搜索用时 15 毫秒
51.
为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clustering and LD Algorithm)。对文本进行移除数字、标点符号和停用词等预处理;采用聚类的方法约简文本中的低频词,利用LD算法计算特征词间的相似度,建立文本相似度矩阵;用特征词相似度及其权重构建的空间向量计算文本间的相似度,这样不仅考虑了关键词微变的情况,而且有效地解决了文本向量的高维问题,将其应用于文本挖掘中,能够提高相似文本的挖掘效率。实验结果表明,由于考虑了关键词微变情况,在一定的阈值范围内,该算法文本相似性的准确率得到了明显的提高。 相似文献
52.
基于改进区分表的核属性约简算法 总被引:1,自引:0,他引:1
知识约简是一个NP难问题,在众多知识约简方法中,核属性基本上作为属性约简的初始解,这样就能有效地减小约简算法在属性空间中的搜索范围,在一定程度上加速了知识约简的进行.然而,核属性解基本上是利用Hu的分辨矩阵法求得的.结合Hu的分辨矩阵算法,讨论了Hu以及Wroblewaski区分表算法中存在的问题,改进了区分表的定义并结合Ye方法提出了基于区分表核属性约简算法,既克服了分辨矩阵方法的缺陷,又避免了区分表算法中存在的问题.实验结果表明该算法能有效求出决策系统的属性核. 相似文献
53.
Apriori算法中频繁项集挖掘实现研究 总被引:4,自引:0,他引:4
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。 相似文献
54.
类属属性学习避免相同属性预测全部标记,是一种提取各标记独有属性进行分类的一种框架,在多标记学习中得到广泛的应用。而针对标记维度较大、标记分布密度不平衡等问题,已有的基于类属属性的多标记学习算法普遍时间消耗大、分类精度低。为提高多标记分类性能,该文提出一种基于标记密度分类间隔面的组类属属性学习(GLSFL-LDCM)方法。首先,使用余弦相似度构建标记相关性矩阵,通过谱聚类将标记分组以提取各标记组的类属属性,减少计算全部标记类属属性的时间消耗。然后,计算各标记密度以更新标记空间矩阵,将标记密度信息加入原标记中,扩大正负标记的间隔,通过标记密度分类间隔面的方法有效解决标记分布密度不平衡问题。最后,通过将组类属属性和标记密度矩阵输入极限学习机以得到最终分类模型。对比实验充分验证了该文所提算法的可行性与稳定性。 相似文献
55.
粗集理论原型系统的集成与实现 总被引:1,自引:1,他引:0
粗集理论主要基于集合近似的概念,给出了知识划分和规则提取的一套方法.主要有不可分辨类的数据划分定义、上下近似和相对正区域求解方法、最小决策规则生成等。针对粗集中这些重要理论.文章主要介绍开发粗集理论原型系统的设计要求、系统组成以及实现粗集理论中相关算法理论依据,并包含有通用数据库接口.因此有着一定的应用价值。 相似文献
56.
57.
58.
针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题,提出了基于粗糙集的数据流多标记分布特征选择算法。首先,将在线流特征选择框架引入多标记学习中;其次,用粗糙集中的依赖度替代原有的条件概率,仅仅利用数据自身的信息计算,使得数据流特征选择算法更加高效快捷;最后,由于在现实世界中,每个标记对实例的描述程度并不相同,为更加准确地描述实例,将传统的逻辑标记用标记分布的形式进行刻画。在多组数据集上的实验表明,所提算法能保留与标记空间有着较高相关性的特征,使得分类精度相较于未进行特征选择的有一定程度的提高。 相似文献
59.
60.
基于信息Granule属性约简的求解 总被引:1,自引:0,他引:1
在传统基于分辨矩阵的约简方法中,用属性构成的集合表达对象间可区分性质;给出了信息Granule的二进制数构造方法,将对象间的可区分性质通过可区分函数的定义实现,并给出约简和核的求解算法。不难发现,后者比施行分辨矩阵更有利于在计算机上实现。 相似文献