首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对传统距离度量在高维数据上效果不明显问题,提出一种共享最近邻子空间聚类算法(SNN_SC),按照维把数据集转变为多个最近邻事务数据库,挖掘事务数据库中最大共现对象集,即一维上聚类。在一维聚类集上进一步挖掘闭频繁项集,包含闭频繁项集的维是子空间,闭频繁项集是子空间上聚类。实验对比结果表明,SNN_SC能够更准确定位子空间,并在子空间上产生完整聚类。  相似文献   

2.
距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC)。该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类。实验证明DLMNNC在很大程度上提高了文本分类精度。  相似文献   

3.
本文针对k-最近邻方法分类效率不高的问题,提出了一种基于密度的训练样本集约减算法.该方法通过计算训练样本集中各类别的类别密度及整个训练集的平均密度,去掉高密度类别中的部分样本,使训练样本集具有更好的代表性.实验表明,该方法不仅提高了k-最近邻方法的分类效率,而且对其分类准确率也有一定程度的提高.  相似文献   

4.
为了取得更好的识别效果,受支持向量机的几何解释和最近点问题启发,提出了一种新的模式分类算法——仿射子空间最近点算法。该算法是将支持向量机最近点法的最近点搜索区域由两类训练集凸包推广到两类训练样本各自张成的仿射子空间,并以仿射子空间作为样本分布的粗略估计,通过仿射子空间中的最近点对来构造平分仿射子空间间隔的最优分类超平面。该算法在ORL人脸识别数据库上进行的比较实验中取得了较好的识别效果,从而证实了该方法的可行性和有效性。  相似文献   

5.
为了增强最近邻凸包分类器的非线性分类能力,提出了基于核函数方法的最近邻凸包分类算法。该算法首先利用核函数方法将输入空间映射到高维特征空间,然后在高维特征空间采用最近邻凸包分类器对样本进行分类。最近邻凸包分类器是一类以测试点到各类别凸包的距离为相似性度量,并按最近邻原则归类的分类算法。人脸识别实验结果证实,这种核函数方法与最近邻凸包分类算法的融合是可行的和有效的。  相似文献   

6.
随着自然语言处理(NLP)的不断发展,深度学习被逐渐运用于文本分类中.然而大多数算法都未有效利用训练文本的实例信息,导致文本特征提取不全面.为了有效利用对象的实例信息,本文提出最近邻注意力和卷积神经网络的文本分类模型(CNN-AKNN).通过引入基于加权卡方距离的最近邻改进算法训练文本,构建文本对象的注意力,然后将注意力机制与卷积神经网络相结合实现全局特征与局部特征的提取,最后通过softmax函数进行文本分类.本文采用搜狗新闻语料库、中山大学语料库以及英文新闻语料库AG_news进行大量实验,结果表明本文所使用的改进算法相较于基准算法效果更优,更有利于提取模型的隐含特征.  相似文献   

7.
针对移动机器人工作环境范围复杂时,使用传统概率路线图(PRM)算法非常耗时的问题,提出一种改进的PRM算法.PRM算法最耗时的部分是构建无向路径图,构建无向路径图的关键是近邻搜索.通过使用近似最近邻搜索中的局部敏感哈希算法代替原先最近邻搜索算法,在不降低生成路线图质量的前提下,加快无向路线图的构建速度,减少PRM算法的运行时间.仿真结果表明,改进的PRM算法相较于传统的PRM算法在无向路径图建立时间上减少27.36% ~33.27%,使PRM算法效率大大提高.  相似文献   

8.
在非结构化数据挖掘结构模型,即发现特征子空间模型(DFSSM)的运行机制下,提出了一种新的文本分类算法——基于DFSSM 的文本分类(TCDFSSM) 算法。该算法在文本训练及分类阶段的基础上增加了自动反馈阶段,使得TCDFSSM具有自学习能力,并给出了文本分类过程反馈阈值的选取算法。结果表明,该算法分类效果良好,其自学习能力、适应性及鲁棒性更加优越。  相似文献   

9.
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。  相似文献   

10.
基于粗糙集的快速KNN文本分类算法   总被引:1,自引:1,他引:1       下载免费PDF全文
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。  相似文献   

11.
This paper presents a study of the Multi-Type Reverse Nearest Neighbor (MTRNN) query problem. Traditionally, a reverse nearest neighbor (RNN) query finds all the objects that have the query point as their nearest neighbor. In contrast, an MTRNN query finds all the objects that have the query point in their multi-type nearest neighbors. Existing RNN queries find an influence set by considering only one feature type. However, the influence from multiple feature types is often critical for strategic decision making in many business scenarios, such as site selection for a new shopping center. To that end, we first formalize the notion of the MTRNN query by considering the influence of multiple feature types. We also propose R-tree based algorithms to find the influence set for a given query point and multiple feature types. Finally, experimental results are provided to show the strength of the proposed algorithms as well as design decisions related to performance tuning.  相似文献   

12.
13.
基于密度和最近邻的Kk-means文本聚类算法   总被引:4,自引:0,他引:4  
张文明  吴江  袁小蛟 《计算机应用》2010,30(7):1933-1935
初始中心点的选择对于传统的K-means算法聚类效果影响较大,容易使聚类陷入局部最优解。针对这个问题,引入密度和最近邻思想,提出了生成初始聚类中心的算法,将所选聚类中心用于K-means算法,得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明,该算法可以生成聚类质量较高并且稳定性较好的结果。  相似文献   

14.
基于向量投影的KNN文本分类算法   总被引:2,自引:0,他引:2  
针对KNN算法分类时间过长的缺点,分析了提高分类效率的方法.在KNN算法基础上,结合向量投影理论以及iDistance索引结构,提出了一种改进的KNN算法--PKNN.该算法通过比较待分类样本和训练样本的一维投影距离,获得最有可能的临近样本点,减小了参与计算的训练样本数,因此可以减少每次分类的计算量.实验结果表明,PKNN算法可以明显提高KNN算法的效率,PKNN算法的原理决定其适合大容量高维文本分类.  相似文献   

15.
基于边界可信度相似的快速文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高了分类性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。  相似文献   

16.
KNN方法是性能最好的文本分类方法之一,但它在分类时要计算待分类文档与所有训练样本的相似度,时间复杂度较大。文中提出了一种基于CBR的文本自动分类方法,先用聚类方法把训练样本库转换为范例库,然后用KNN思想分类。实验结果显示该方法分类的平均召回率和准确率达到了87.07%和89.17%;并且通过分析算法的时间复杂度得知,该方法的分类速度比KNN方法有很大的提高,因此具有很好的实用价值。  相似文献   

17.
18.
In this paper,a new approach is presented to find the reference set for the nearest neighbor classifer.The optimal reference set,which has minimum sample size and satisfies a certain error rate threshold,is obtained through a Tabu search algorithm.When the error rate threshold is set to zero,the algorithm obtains a near minimal consistent subset of a given training set.While the threshold is set to a small appropriate value,the obtained reference set may compensate the bias of the nearest neighbor estimate.An aspiration criterion for Tabu search is introduced,which aims to prevent the search process form the inefficient wandering between the feasible and infeasible regions in the search space and speed up the convergence.Experimental results based on a number of typical data sets are presented and analyzed to illustrate the benefits of the proposed method.Compared to conventional methods,such as CNN and Dasarathy‘s algorithm,the size of the reduced reference sets is much smaller,and the nearest neighbor classification performance is better,especially when the error rate thresholds are set to appropriate nonzerovalues,The experimental results also illustrate that the MCS(inimal consistent set)of Dasarathy‘s algorithm is not minimal,and its candidate consistent set is not always ensured to reduce monotonically.A counter example is also given to confirm this claim.  相似文献   

19.
Text search is a classical problem in Computer Science, with many data-intensive applications. For this problem, suffix arrays are among the most widely known and used data structures, enabling fast searches for phrases, terms, substrings and regular expressions in large texts. Potential application domains for these operations include large-scale search services, such as Web search engines, where it is necessary to efficiently process intensive-traffic streams of on-line queries. This paper proposes strategies to enable such services by means of suffix arrays. We introduce techniques for deploying suffix arrays on clusters of distributed-memory processors and then study the processing of multiple queries on the distributed data structure. Even though the cost of individual search operations in sequential (non-distributed) suffix arrays is low in practice, the problem of processing multiple queries on distributed-memory systems, so that hardware resources are used efficiently, is relevant to services aimed at achieving high query throughput at low operational costs. Our theoretical and experimental performance studies show that our proposals are suitable solutions for building efficient and scalable on-line search services based on suffix arrays.  相似文献   

20.
齐斌 《计算机应用研究》2020,37(8):2381-2385,2408
针对基于稀疏表示的分类算法存在分类限制和计算复杂性等问题进行了研究。首先,改进了加权局部线性KNN文本特征表示方法和分类算法,通过对表示系数加权使其更加稀疏,引入非负约束以规避表示系数出现负的噪声干扰;其次,给出了分类器设计和算法的收敛性证明;最后,通过实验对比得出模型中各参数的优势值域。实验结果表明,改进后的算法与基础模型相比,查准率和查全率平均分别提升了2.49%和0.85%,相比于其他主流分类算法在性能上也均有明显提高。通过分析,该算法在文本分类上具有准确率高、收敛性强等优势,适用于对高维数据的文本分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号