首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
在机器学习领域中有一个重要的研究领域就是流形学习,而流形学习中最为重要的算法之一就是局部线性嵌入算法(LLE),这种算法是一种非线性降维,具有很好的泛化性,在图像分类和目标识别等方面被广泛地应用。主要介绍了流形学习的基本思想,典型的LLE算法,同时归纳了几种现有的LLE改进算法,使得我们能够更好地去理解流形学习和LLE算法。  相似文献   

2.
文本分类常采用的算法一般是基于向量比较的分类技术.文本中关键字较多,形成的特征向量维数相当高,因而会导致分类比较处理的运算量太大,而降低维数后又会不可避免地丢失有用信息.将粗糙集理论应用于分类处理过程中可有效地解决此问题.  相似文献   

3.
阐述了中文文本自动分类技术在法制领域中对描述案情的法律文本自动分类的改进及应用,并初步构建了一个中文法律案情文本分类系统.该系统在Visual C 环境上编程实现,通过对测试集中文本实验结果的分析,表明该方法具有一定的分类功能.  相似文献   

4.
基于SVM的中文文本分类算法   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机的中文文本分类算法,介绍了文本分类过程中的文本表示、特征提取和SVM算法等关键技术.最后进行了实验和分析,由实验结果可以看出,该方法在精确率和召回率等方面能够达到比较好的效果.  相似文献   

5.
KNFL算法是一种近年来在人脸识别领域得到广泛应用的算法,这种算法认为类中两点的连线也可以近似代表类的特征,把它应用于文本分类领域可以得到较好的分类效果,但是由于时间复杂度比较高,影响了其实用价值.本文提出了一种应用于文本分类的改进的KNFL算法,计算出类的中心点后再进行两次过滤,分别将离类中心点较远的特征点和特征线过滤掉,减少了训练集样本数目,在对分类精确度影响不大的情况下,改善了KNFL算法的分类效率,最后用实验验证了该算法的有效性.  相似文献   

6.
为解决文本分类中存在的维数灾难、数据集噪声等问题,本研究提出一种利用非线性维数约简算法结合k-最邻近结点算法(k-nearest neighbor algorithm, k-NN)的文本分类算法。该算法首先对数据集进行去噪处理,再采用非线性流形学习中的局部线性嵌入算法恢复高维数据中的中低维流形结构,以实现数据约简,利用经过上述处理的文本数据学习k-NN分类器。实验结果表明,该算法能够有效提高文本分类精度。  相似文献   

7.
借鉴了免疫系统的分类本质以及免疫系统的克隆选择和抗体浓度控制原理,提出了基于抗体浓度的克隆选择算法.该算法基于抗体的浓度和亲和度选择免疫反应细胞,具有高亲和度和低抗体浓度的细胞其选择概率相对较高.通过对多个免疫反应细胞经过多次克隆变异后选取最优解作为记忆细胞,由最终保留的记忆细胞群生成分类器.整个过程既保证了解的正确性,又保证了解的多样性.在数据集20_newsgroups上的实验结果显示:该算法的分类性能优于Rocchio和Naive Bayes,与SVM性能相当.  相似文献   

8.
中文文本分类中基于词性的特征提取方法研究   总被引:6,自引:0,他引:6  
在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法——基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。  相似文献   

9.
提出了一种结合流形学习方法与分类算法的基因微阵列数据分类模型,先用流形学习算法对基因微阵列数据进行降维处理,然后再对降维后的数据进行分类.在实验中将流形学习算法LLE、ISO-MAP、LE和LTSA与三种分类算法相结合,并与直接用高维数据进行分类的结果进行了比较,实验结果表明所提出的模型极大地提高了分类精度,同时也提高了分类算法的执行效率.  相似文献   

10.
针对自然语言在语句结构上有着较强的前后依赖关系,提出一种基于BERT的复合网络模型进行中文新闻分类。首先利用BERT的基于注意力机制的多层双向transformer特征提取器获得字词以及句子之间更加全局的特征关系表达。然后将所得数据输入门结构更加简单的双向门控循环神经网络层将特征增强的同时减少时间代价,加强数据特征的选取精确度。最后将不同权重的文本特征信息输入softmax函数层进行新闻分类。通过在cnews新浪新闻数据集上进行实验,获得97.21%的F1值,结果表明所提特征融合模型较其他模型分类效果更好。  相似文献   

11.
基于改进K -均值聚类的汉语语块识别   总被引:1,自引:0,他引:1  
为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的.  相似文献   

12.
High dimensional data clustering, with the inherent sparsity of data and the existence of noise, is a serious challenge for clustering algorithms. A new linear manifold clustering method was proposed to address this problem. The basic idea was to search the line manifold clusters hidden in datasets, and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters. The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure. The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time. The proposed method is able to obtain high clustering accuracy for various data sets with different sizes, manifold dimensions and noise ratios, which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data.  相似文献   

13.
一种改进的k-means中文文本聚类算法   总被引:3,自引:0,他引:3  
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。  相似文献   

14.
基于流形学习的图像检索算法研究   总被引:1,自引:0,他引:1  
流形学习以发现非线性高维数据的本质维数为目标,使其更适合数据分析和高维数据的降维。图像检索中“语义鸿沟”问题指的是高维数据空间与低维的语义子空间之间的鸿沟,虽然利用相关反馈机制可以缩小这种鸿沟提高准确率,但是因为反馈图像数目较少,图像特征维数相对较高,会容易产生维数灾难问题。流形学习的引入为解决这一难题带来了新的希望,因为通过流形学习的方法学习高维图像特征数据的本征维数用于图像检索,大大提高了检索性能。基于流形学习的图像检索算法都是半监督的流形学习,充分利用了反馈信息,学习查询图像的语义子空间,有效的实现了高维数据的降维。  相似文献   

15.

针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取出高层文本特征并通过最小二乘的方法对文本数据进行分类.与多个算法的实验对比表明,该算法在20newsgroup、Reuters和复旦大学中文语料库这3个数据集上都具有良好的分类性能.

  相似文献   

16.
K-means algorithm is one of the most widely used algorithms in the clustering analysis. To deal with the problem caused by the random selection of initial center points in the traditional algorithm, this paper proposes an improved K-means algorithm based on the similarity matrix. The improved algorithm can effectively avoid the random selection of initial center points, therefore it can provide effective initial points for clustering process, and reduce the fluctuation of clustering results which are resulted from initial points selections, thus a better clustering quality can be obtained. The experimental results also show that the F-measure of the improved K-means algorithm has been greatly improved and the clustering results are more stable.  相似文献   

17.
为了获取高质量的隐式主题结果,提高服务聚类精度,解决服务描述文档文本短带来的语义稀疏性与噪声问题,提出词向量与噪声过滤优化的词对主题模型(BTM-VN). 该模型以词对为基础,拓展服务描述文档,获取额外的语义信息,设计利用主题分布信息进行代表词对概率计算的策略,通过在采样过程中计算代表词对矩阵,提高代表词对在当前主题的权重,降低噪声词对服务描述文档主题获取的干扰. 利用词向量筛选待训练的词对集合,减少共现意义低的词对组合,解决词对主题模型耗时较长的问题. 使用优化的密度峰值聚类算法对经BTM-VN训练后的服务主题分布矩阵进行聚类. 实验结果表明,基于BTM-VN的服务聚类方法在3种聚类评价指标上的表现均优于传统的服务聚类算法.  相似文献   

18.
针对块对角表示(block diagonal representation, BDR)子空间聚类算法在对子空间重叠的高维数据聚类时效果较差的问题,提出成对约束的块对角子空间聚类(constrained subspace clustering with block diagonal representation, CBDR)算法,设计主动式学习策略,获取用户提供的少量数据点成对信息,以改进BDR算法的性能,给出CBDR算法的目标函数和求解过程。在测试集上的试验结果表明,CBDR算法的聚类错误率和归一化互信息指标比BDR和SBDR(structured block diagonal representation)算法好,而且主动式选取点对方法优于随机选取点对方法,使用少于5‰的约束信息可降低BDR的聚类错误率达到5%以上。  相似文献   

19.
用ASP实现中文文本文件的加密与解密   总被引:1,自引:0,他引:1  
讨论了一种利用维尔南加密算法和ASP代码对中文文本文件信息进行加密与解密的方法,应用该方法已在实际操作中实现了对中文文本文件的加,解密过程。  相似文献   

20.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号