首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
提出通过String Kernel方法把负实例语法数据库中的负实例转化成核矩阵,再用Kernel Principal Component Analysis(KPCA)对转换的核矩阵进行特征提取,进而可将原始负实例数据库按照这些特征分成多个容量较小的特征表。通过构造负实例特征索引表设计了一个分类器,待检查的句子通过此分类器被分配到某个负实例特征表里进行匹配搜索,而此特征表的特征属性数和记录数要远远小于原始负实例数据库中的相应数目,从而大大提高了检查的速度,同时不影响语法检查的精度。通过比较测试,可看出提出的方法在保证语法检查精确度的同时有更快的速度。  相似文献   

2.
针对传统的非负矩阵分解(NMF)应用于聚类时,没有同时考虑到鲁棒性和稀疏性,导致聚类性能较低的问题,提出了基于核技巧和超图正则的稀疏非负矩阵分解算法(KHGNMF)。首先,在继承核技巧的良好性能的基础上,用L2,1范数改进标准非负矩阵分解中的F范数,并添加超图正则项以尽可能多地保留原始数据间的内在几何结构信息;其次,引入L2,1/2伪范数和L1/2正则项作为稀疏约束合并到NMF模型中;最后,提出新算法并将新算法应用于图像聚类。在6个标准的数据集上进行验证,实验结果表明,相对于非线性正交图正则非负矩阵分解方法,KHGNMF使聚类性能(精度和归一化互信息)成功地提升了39%~54%,有效地改善和提高了算法的稀疏性和鲁棒性,聚类效果更好。  相似文献   

3.
胡学考  孙福明  李豪杰 《计算机科学》2015,42(7):280-284, 304
矩阵分解因可以实现大规模数据处理而具有十分广泛的应用。非负矩阵分解(Nonnegative Matrix Factorization,NMF)是一种在约束矩阵元素为非负的条件下进行的分解方法。利用少量已知样本的标注信息和大量未标注样本,并施加稀疏性约束,构造了一种新的算法——基于稀疏约束的半监督非负矩阵分解算法。推导了其有效的更新算法,并证明了该算法的收敛性。在常见的人脸数据库上进行了验证,实验结果表明CNMFS算法相对于NMF和CNMF等算法具有较好的稀疏性和聚类精度。  相似文献   

4.
提出一种基于非负矩阵分解(NMF)的双重约束文本聚类算法。在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词-文档矩阵进行分解,获得文本聚类结果。与多种传统半监督文本聚类算法的对比结果表明,该算法具有较高的聚类精度,能提供更准确和有效的聚类结果。  相似文献   

5.
本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。  相似文献   

6.
提出一种求解聚类问题的分布估计算法。基于PBIL算法定义聚类矩阵,建立对应的概率矩阵模型,引入遗传算法的基因变异算子,设计适用于分布估计算法的变异操作,改进概率模型的更新方式。实验结果表明,与Kmeans、Kmedioid、Clarans和遗传算法相比,该算法的聚类质量较好。  相似文献   

7.
Kmeans是最典型的聚类算法,因其简洁、快速而被广泛使用。针对传统Kmeans算法对初始聚类中心敏感和聚类参数k难以确定的问题,提出了一种基于关联图划分的Kmeans算法。该算法能够有效地根据数据的分布特性选取初始聚类中心,能够在指定的数据密集程度下自适应确定聚类数目。有效性实验表明上述改进的Kmeans算法具有较高的准确率和稳定性。  相似文献   

8.
提出了一种基于图正则化的半监督非负矩阵分解算法(GSNMF),克服了非负矩阵分解(NMF)、约束非负矩阵分解(CNMF)和图正则化非负矩阵分解(GNMF)方法忽略样本数据的局部几何结构或标签信息不足的缺陷,且NMF、CNMF和GNMF均为GSNMF的特例。也从理论上证明了GSNMF算法的收敛性。该算法对样本数据进行低维非负分解时,在图框架下既保持数据的几何结构,又利用已知样本的标签信息,在进行半监督学习时,同类样本能更好地聚集而类间距离尽可能大。在人脸数据库ORL、FERET和手写体数据库USPS上的仿真结果表明,相对于NMF及其一些改进算法,GSNMF均具有更高的聚类精度。  相似文献   

9.
针对核模糊聚类算法优异的非线性表达能力,提出一种Gauss诱导核模糊c均值聚类算法(GIKFCMs)。首先,基于核目标函数和梯度法,得到特征空间聚类中心表达式,并通过内积运算得到聚类中心与样本的核矩阵表达式。其次,取核目标函数中的核函数为Gauss核函数,并利用梯度法得到输入空间聚类中心表达式。最后将聚类中心与样本的核矩阵代入输入空间聚类中心表达式中,从而得到GIKFCMs核聚类中心计算方法,同时得到相应的GIKFCMs核聚类算法。研究GIKFCMs算法的相关性质,分析算法的收敛性和初始化约束。GIKFCMs算法克服了原有核聚类算法在收敛性与初始化约束方面的缺陷。通过仿真实验验证了该算法的有效性。  相似文献   

10.
非负矩阵分解(Nonnegative Matrix Factorization,NMF)不仅可以很好地描述数据而且分解后的矩阵具有直观的物理意义。为了提高算法的有效性和识别率,提出了一种更为合理的算法——基于图正则化和稀疏约束的增量型非负矩阵分解(Graph Regularized and Incremental Nonnegative Matrix Factorization with Sparseness Constraints,GINMFSC)。该算法既保持了数据的几何结构,又充分利用上一步的分解结果进行增量学习,而且对系数矩阵施加了稀疏性约束,最后将它们整合于单个目标函数中,构造了一个有效的更新算法。在多个数据库上的仿真结果表明,相对于NMF,GNMF,INMF,IGNMF等算法,GINMFSC算法在降低运算时间的同时,还具有更好的聚类精度和稀疏性。  相似文献   

11.
In this paper, we propose automatic image segmentation using constraint learning and propagation. Recently, kernel learning is receiving much attention because a learned kernel can fit the given data better than a predefined kernel. To effectively learn the constraints generated by initial seeds for image segmentation, we employ kernel propagation (KP) based on kernel learning. The key idea of KP is first to learn a small-sized seed-kernel matrix and then propagate it into a large-sized full-kernel matrix. By applying KP to automatic image segmentation, we design a novel segmentation method to achieve high performance. First, we generate pairwise constraints, i.e., must-link and cannot-link, from initially selected seeds to make the seed-kernel matrix. To select the optimal initial seeds, we utilize global k-means clustering (GKM) and self-tuning spectral clustering (SSC). Next, we propagate the seed-kernel matrix into the full-kernel matrix of the entire image, and thus image segmentation results are obtained. We test our method on the Berkeley segmentation database, and the experimental results demonstrate that the proposed method is very effective in automatic image segmentation.  相似文献   

12.
In order to solve the scalability problem in news recommendation, a scalable news recommendation method is proposed. The method includes the multi-dimensional similarity calculation, the Jaccard–Kmeans fast clustering and the Top-N recommendation. The multi-dimensional similarity calculation method is used to compute the integrated similarity between users, which considers abundant content feature of news, behaviors of users, and the time of these behaviors occurring. Based on traditional K-means algorithm, the Jaccard–Kmeans fast clustering method is proposed. This clustering method first computes the above multi-dimensional similarity, then generates multiple cluster centers with user behavior feature and news content feature, and evaluates the clustering results according to cohesiveness. The Top-N recommendation method integrates a time factor into the final recommendation. Experiment results prove that the proposed method can enhance the scalability of news recommendation, significantly improve the recommendation accuracy in condition of data sparsity, and improve the timeliness of news recommendation.  相似文献   

13.
针对传统聚类算法对流数据进行聚类时面临时间复杂度高,存储空间需求大以及准确度较低的问题,提出一种基于差异性采样的流数据聚类算法。首先利用差异性采样法对流数据进行采样并用样本点构造核矩阵,然后利用核模糊C均值聚类算法对核矩阵中的点进行聚类得到一个带有标记的样本核矩阵,最后利用带有标记的样本核矩阵对流数据中的点进行划分。同时利用衰退聚类机制,实时更新样本核矩阵。实验结果表明,相比于传统聚类算法,该算法实现了更低的时间复杂度,同时实时聚类,得到较为理想的聚类结果。  相似文献   

14.
We propose a systematic ECG quality classification method based on a kernel support vector machine(KSVM) and genetic algorithm(GA) to determine whether ECGs collected via mobile phone are acceptable or not. This method includes mainly three modules, i.e., lead-fall detection, feature extraction, and intelligent classification. First, lead-fall detection is executed to make the initial classification. Then the power spectrum, baseline drifts, amplitude difference, and other time-domain features for ECGs are analyzed and quantified to form the feature matrix. Finally, the feature matrix is assessed using KSVM and GA to determine the ECG quality classification results. A Gaussian radial basis function(GRBF) is employed as the kernel function of KSVM and its performance is compared with that of the Mexican hat wavelet function(MHWF). GA is used to determine the optimal parameters of the KSVM classifier and its performance is compared with that of the grid search(GS) method. The performance of the proposed method was tested on a database from PhysioNet/Computing in Cardiology Challenge 2011, which includes 1500 12-lead ECG recordings. True positive(TP), false positive(FP), and classification accuracy were used as the assessment indices. For training database set A(1000 recordings), the optimal results were obtained using the combination of lead-fall, GA, and GRBF methods, and the corresponding results were: TP 92.89%, FP 5.68%, and classification accuracy 94.00%. For test database set B(500 recordings), the optimal results were also obtained using the combination of lead-fall, GA, and GRBF methods, and the classification accuracy was 91.80%.  相似文献   

15.
传统的模糊连接点FJP聚类算法采用基于欧氏距离的最大 最小合成运算法生成传递闭包,该方法所生成的传递闭包存在失真问题,即包含有较多错误的数据关联信息,最终造成算法聚类精度低且计算时间长。针对以上问题,提出一种改进的模糊连接点聚类算法:先用组合核函数计算数据集的模糊相似度矩阵,提高算法对数据非线性特征的辨识能力,并用大顶堆存储之;然后遍历传递闭包矩阵中的空元素,用堆顶的桥元素填充传递闭包的空元素,直至生成传递闭包。在测试数据集上的实验结果表明,本文算法的平均聚类精度较传统FJP算法有20%以上的提升,显著改善了传递闭包的失真问题;另外,在大型数据集上的计算效率亦优于传统FJP算法的,说明本文改进FJP算法的思路是有效的、可行的。  相似文献   

16.
为了对图数据库中的结构化数据有效的聚类分析,首先对不同的图数据样本进行特征的深度挖掘,构造了包含节点间连接层次关系的关联度矩阵,与拉普拉斯矩阵结合共同完成谱特征分析;然后利用高斯核函数进行相似度矩阵的构建,将相似度归一化到0到1的范围内便于后期处理;最后结合图分割与k-means算法将相似度矩阵进行k分割,得到k个聚类。经过大量分析实验表明,改进的拉普拉斯矩阵对样本内部结构有更为精细的划分,提高了前期样本处理效果。最小比率割算法在保证精度的前提下,将NP难的问题转化为多项式时间内解决的问题,提高了算法的效率。  相似文献   

17.
An algorithm for optimizing data clustering in feature space is studied in this work. Using graph Laplacian and extreme learning machine (ELM) mapping technique, we develop an optimal weight matrix W for feature mapping. This work explicitly performs a mapping of the original data for clustering into an optimal feature space, which can further increase the separability of original data in the feature space, and the patterns points in same cluster are still closely clustered. Our method, which can be easily implemented, gets better clustering results than some popular clustering algorithms, like k-means on the original data, kernel clustering method, spectral clustering method, and ELM k-means on data include three UCI real data benchmarks (IRIS data, Wisconsin breast cancer database, and Wine database).  相似文献   

18.
基于指纹的RFID室内定位技术,由于其定位精度高、普适性强等优点受到国内外学者的广泛关注。但因为其计算量较大,在实际应用仍然非常有限。提出基于实际应用场景的Kmeans和Weighted K-Nearest Neighbor(WKNN)联合的定位方法,将指纹地图通过聚类算法分成块,先初步确认待测点所属指纹块,在块的基础上定位,这样可以减小误差累计。仿真结果表明,该方法在保证适当定位精度的同时,也减少了计算量和在线定位时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号